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第 1 章 设备 驱动 简介 


以 Linux 为 代表 的 自由 操作 系统 的 很 多 优点 之 一 ， 是 它们 的 内 部 是 开放 给 所 有 人 看 的 .操作 系统 ， 曾 
经 是 一 个 隐藏 的 神秘 的 地 方 ， 它 的 代码 只 局 限于 少数 的 程序 员 ， 现 在 已 准备 好 让 任何 具备 必要 技能 的 人 
来 检查 ， 理 解 以 及 修改 . Linux 已 经 帮助 使 操作 系统 民主 化 .Linux 内 核 保 留 有 大 量 的 复杂 的 代码 ， 但 
是 ， 那 些 想 要 成 为 内 核 hacker 的 人 需要 一 个 入 口 点 ， 这 样 他 们 可 以 进入 代码 中 ， 不 会 被 代码 的 复杂 性 
压倒 通常， 设备 驱动 提供 了 这 样 的 门路 . 

























































































































































































驱动 程序 在 Linux 内 核 里 扮演 着 特殊 的 角色 .它们 是 截然 不 同 的 使 硬件 的 特殊 的 一 部 分 响 
应 定义 好 的 内 部 编程 接口 。， 它 们 完全 隐藏 了 设备 工作 的 细节 . 用 请 的 活动 过 过 套 标准 化 的 调用 来 进行 
这 些 调用 与 特别 的 驱动 是 独立 的 ;设备 驱动 的 角色 就 是 将 这 些 调用 映射 到 作用 于 实际 硬件 的 和 设备 相关 
的 操作 上 .这 个 编程 接口 是 这 样 ， 驱 动 可 以 与 内 核 的 其 他 部 分 分 开 建立 ， 并 在 需要 的 时 候 在 运行 时 ” 插 
AC. 这 种 模块 化 使 得 Linux 驱动 易 写 ， 以 致 于 目前 有 几 百 个 驱动 可 用 . 










































































































































































编写 Linux 设备 驱动 有 许多 理由 让 人 感 兴趣 .可 用 的 新 硬件 出 现 的 速率 (以 及 陈旧 的 速率 ) 就 确保 了 驱 
动 编写 者 在 可 见 的 将 来 内 是 忙碌 的 ,个 别人 可 能 需要 了 解 驱 动 以 便 存 取 一 个 他 们 感 兴趣 的 特殊 设备 ， 便 
和 后 供应 商 ， 通 过 为 他 们 的 产品 开发 Linux 驱动 ， 可 以 给 他 们 的 潜在 市 场 增加 大 量 的 正在 扩张 的 Linux 
用 户 基数 .还 有 Linux 系统 的 开放 源码 性 质 意 味 着 如 果 驱 动 编写 者 愿意 ， 驱 动 源码 能 够 快速 地 散布 到 























































































































本 书 指导 你 如 何 编写 你 自己 的 驱动 ， 以 及 如 何 利 用 内 核 相 关 的 部 分 ， 我 们 采用 一 种 设备 -独立 的 方法 ; 

编程 技术 和 接口 ， 在 任何 可 能 的 时 候 ， 不 会 捆绑 到 任何 特定 的 设备 ， 每 一 个 驱动 都 是 不 同 的 ; 作为 一 个 
驱动 编写 者 ， 你 需要 深入 理解 你 的 特定 设备 ， 但 是 大 部 分 的 原则 和 基本 技术 对 所 有 驱动 都 是 一 样 的 .本 
书 无 法 教 你 关于 你 的 设备 的 东西 ， 但 是 它 给 予 你 所 需要 的 使 你 的 设备 运行 起 来 的 背景 知识 的 指导 . 






















































































在 你 学 习 编 写 驱动 时 ， 你 通常 会 发 现 大 量 有 关 Linux 内 核 的 东西 .这 也 许 会 帮助 你 理解 你 的 机 器 是 如 
何 工作 的 ， 以 及 为 什么 事情 不 是 如 你 所 愿 的 快 ， 或 者 不 是 如 你 所 要 的 进行 ， 我 们 会 逐步 介绍 新 概念 ， 由 
非常 简单 的 驱动 开始 并 建立 它们 ; 每 一 个 新 概念 都 伴 有 例子 代码 ， 这 样 的 代码 不 需要 特别 的 硬件 来 测试 . 










































































本 章 不 会 真正 进入 编写 代码 . 但是， 我 们 介绍 一 些 Linux 内 核 的 背景 概念 ， 这 样 在 以 后 我 们 动手 编程 
时 ， 你 会 感到 乐于 知道 这 些 . 


1.1. 驱动 程序 的 角色 


作为 一 个 程序 员 ， 你 能 够 对 你 的 驱动 作出 你 自己 的 选择 ， 并 且 在 所 需 的 编程 时 间 和 结果 的 
灵活 性 之 间 ， 选 择 一 个 可 接受 的 平衡 ， 尽管 说 一 个 驱动 是 “灵活 的 ， 听 起 来 有 些 奇怪 ， 但 
是 我 们 喜欢 这 个 字眼 ， 因 为 它 强调 了 一 个 驱动 程序 的 角色 是 提供 机 制 ， 而 不 是 策略 . 





























机 制 和 策略 的 区 分 是 其 中 一 个 在 Unix 设计 背后 的 最 好 观念 ， 大 部 分 的 编程 问题 其 实 可 以 
划分 为 2 部 分 :” 提 供 什 么 能 力 ″( 机 制 ) 和 “如 何 使 用 这 些 能 力 ″( 策 略 ) 如果 这 两 方面 
由 程序 的 不 同 部 分 来 表达 ， 或 者 甚至 由 不 同 的 程序 共同 表达 ， 软 件 包 是 非常 容易 开发 和 适 
应 特殊 的 需求 . 














例如 ， 图 形 显示 的 Unix 管理 划分 为 X 服务 器 ， 它 理解 硬件 以 及 提供 了 统一 的 接口 给 用 
户 程序 ， 还 有 窗口 和 会 话 管理 器 ， 它 实现 了 一 个 特别 的 策略 ， 而 对 硬件 一 无 所 知 ， 人 们 可 
以 在 不 同 的 硬件 上 使 用 相同 的 窗口 管理 器 ， 而 且 不 同 的 用 户 可 以 在 同一 台 工 作 站 上 运行 不 
同 的 配置 .甚至 完全 不 同 的 桌面 环境 ， 例 如 KDE 和 GNOME， 可 以 在 同一 系统 中 共存 ， 另 
一 个 例子 是 TCP/IP 网 络 的 分 层 结构 : 操作 系统 提供 socket 抽象 层 ， 它 对 要 传送 的 数据 
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而 言 不 实现 策略 ， 而 不 同 的 服务 器 负责 各 种 服务 ( 以 及 它们 的 相关 策略 ) 而且， 一 个 服 
务 器 ， 例 如 ftpd 提供 文件 传输 机 制 ， 同 时 用 户 可 以 使 用 任何 他 们 喜欢 的 客户 端 ， 无 论 命 
令 行 还 是 图 形 客户 端 都 存在 ， 并 且 任 何人 都 能 编写 一 个 新 的 用 户 接口 来 传输 文件 . 

















在 驱动 相关 的 地 方 ， 机 制 和 策略 之 间 的 同样 的 区 分 都 适用 ， 软 驱 张 动 是 不 含 策略 的 一 它 的 
角色 仅仅 是 将 磁盘 表现 为 一 个 数据 块 的 连续 阵列 ， 系 统 的 更 高 级 部 分 提供 了 策略 ， 例 如 谁 
可 以 存 取 软驱 驱动 ， 这 个 软驱 是 直接 存 取 还 是 要 通过 一 个 文件 系统 ， 以 及 用 户 是 否 可 以 加 
载 文 件 系统 到 这 个 软驱 因为 不 同 的 环境 常常 需要 不 同 的 使 用 硬件 的 方式 ， 尽 可 能 对 策略 
透明 是 非常 重要 的 . 












































在 编写 驱动 时 ， 程 序 员 应 当 特 别 注意 这 个 基础 的 概念 : 编写 内 核 代 码 来 存 取 硬 件 ， 但 是 不 
能 强加 特别 的 策略 给 用 户 ， 因 为 不 同 的 用 户 有 不 同 的 需求 ， 驱 动 应 当做 到 使 硬件 可 用 ， 将 
所 有 关于 如 何 使 用 硬件 的 事情 留 给 应 用 程序 .一 个 驱动 ， 这 样 ， 就 是 灵活 的 ， 如 果 它 提供 
了 对 人 硬件 能 力 的 存 取 ， 没 有 增加 约束 .然而 ， 有 时 必须 作出 一 些 策略 的 决定 。 例 如， 一 个 
数字 I/0 驱动 也 许 只 提供 对 硬件 的 字符 存 取 ， 以 便 避 免 额 外 的 代码 处 理 单个 位 . 















































你 也 可 以 从 不 同 的 角度 看 你 的 驱动 : 它 是 一 个 存在 于 应 用 程序 和 实际 设备 间 的 软件 层 .， 豫 
动 的 这 种 特权 的 角色 允许 驱动 程序 员 严 密 地 选择 设备 应 该 如 何 表 现 : 不 同 的 驱动 可 以 提供 
不 同 的 能 力 ， 甚 全 是 同一 个 设备 ， 实际 的 驱动 设计 应 当 是 在 许多 不 同 考虑 中 的 平衡 ， 例 如 ， 
一 个 单个 设备 可 能 由 不 同 的 程序 并 发 使 有 用， 驱动 程序 员 有 完全 的 目 由 来 决定 如 何 处 理 并 发 
性 ， 你 能 在 设备 上 实现 内 存 映 射 而 不 依赖 它 的 硬件 能 力 ， 或 者 你 能 提供 一 个 用 户 库 来 帮助 
应 用 程序 员 在 可 用 的 原 语 之 上 实现 新 策略 ， 等 等 ， 一 个 主要 的 考虑 是 在 展现 给 用 户 尽 可 能 
多 的 选项 ， 和 你 不 得 不 花费 的 编写 驱动 的 时 间 之 间 做 出 平衡 ， 还 有 需要 保持 事情 简单 以 避 
免 错 误 潜 入 . 
























































对 策略 透明 的 驱动 有 一 些 典型 的 特征 ， 这些 包括 支持 同步 和 异步 操作 ， 可 以 多 次 打开 的 能 
力 ， 利 用 硬件 全 部 能 力 ， 没 有 软件 层 来 “简化 事情 “或 者 提供 集 略 相关 的 操作 .这 样 的 驱动 
不 但 对 他 们 的 最 终 用 户 好 用 ， 而 且 证 明 也 是 易 写 易 维护 的 .成 为 策略 透明 的 实际 是 一 个 共 
同 的 目标 ， 对 软件 设计 者 来 说 . 























许多 设备 驱动 ， 确 实 ， 是 与 用 户 程 序 一 起 发 行 的 ， 以 便 帮 助 配置 和 存 取 目 标 设备 ， 这 些 程 
序 包 括 简 单 的 工具 到 完全 的 图 形 应 用 .例子 包括 tunelp 程序 ， 它 调整 并 口 打 印 机 驱动 如 
何 操作 ， 还 有 图 形 的 cardctl 工具 ， 它 是 PCMCIA 驱动 包 的 一 部 分 ， 经 常会 提供 一 个 客 
户 库 ， 它 提供 了 不 需要 驱动 自身 实现 的 功能 . 














本 书 的 范围 是 内 核 ， 因 此 我 们 尽力 不 涉及 策略 问题 ， 应 用 程序 ， 以 及 文 持 库 ， 有 时 我 们 谈 
论 不 同 的 策略 以 及 如 何 文 持 他 们 ， 但 是 我 们 不 会 进入 太 多 有 关 使 用 设备 的 程序 的 细节 ， 或 
者 是 他 们 强加 的 策略 的 细节 .但 是 ， 你 应 当 理 解 ， 用 户 程序 是 一 个 软件 包 的 构成 部 分 ， 并 
且 就 算是 对 策略 透明 的 软件 包 在 发 行 时 也 会 带 有 配置 文件 ， 来 对 底层 的 机 制 应 用 缺 省 的 动 
作 . 


1. 2， 划 分 内 核 


在 Unix 系统 中 ， 几 个 并 发 的 进程 专注 于 不 同 的 任务 .每 个 进程 请 求 系统 资源 ， 象 计算 能 
力 ， 内 存 ， 网 络 连接 ， 或 者 一 些 别 的 资源 内核 是 个 大 块 的 可 执行 文件 ， 负 责 处 理 所 有 这 
样 的 请 求 ， 尽 管 不 同 内 核 任务 间 的 区 别 常常 不 是 能 清楚 划分 ， 内 核 的 角色 可 以 划分 (如同 
图 内 核 的 划分 ) 成 下 列 几 个 部 分 : 
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内 核 负 责 创 建 和 销毁 进程 ， 并 处 理 它 们 与 外 部 世界 的 联系 (输入 和 输出 )， 不 同 进 程 





间 通 讯 (通过 信号 




















内 存 管理 











管道 ， 或 者 进程 间 通 讯 原 语 ) 对 整个 系统 功能 来 说 是 基本 的 ， 也 




















由 内 核 处 理 .， 另 外， 调度 器 ， 控 制 进程 如 何 共享 CPU， 是 进程 管理 的 一 部 分 ， 更 通 
常 地 ， 内 核 的 进程 














管理 活动 实现 了 多 个 进程 在 一 个 单个 或 者 儿 个 CPU 之 上 的 抽象 . 








计算 机 的 内 存 是 主要 的 资源 ， 处 理 它 所 用 的 策略 对 系统 性 能 是 至 关 重 要 的 ， 内 核 为 
所 有 进程 的 每 一 个 都 在 有 限 的 可 用 资源 上 建立 了 一 个 虚拟 地 址 空间 ， 内 核 的 不 同 部 














分 与 内 存 管理 子 系统 通过 一 套 函 数 调用 交互 ， 从 简单 的 malloc/free 对 到 更 多 更 








复杂 的 功能 ， 
XE IRE 








Unix 在 很 大 程度 上 基于 文件 系统 的 概念 ; 几乎 Unix 中 的 任何 东西 都 可 看 作 一 个 





文件 ， 内 核 在 非 结 








构 化 的 硬件 之 上 建立 了 一 个 结构 化 的 文件 系统 ， 结 果 是 文件 的 抽 





象 非常 多 地 在 整个 系统 中 应 用 ， 另 外 ，Linux 支持 多 个 文件 系统 类 型 ， 就 是 说 ， 物 











理 介 质 上 不 同 的 数据 组 织 方式 ， 例 如 ， 磁 盘 可 被 格式 化 成 标准 Linux 的 ext3 x 


件 系统 ， 普 所 使 用 的 FAT 文件 系统 ， 或 者 其 他 几 个 文件 系统 . 


设备 控制 


几乎 每 个 系统 操作 最 终 都 映射 到 一 个 物理 设备 上 ， 除 了 处 理 器 ， 内 存 和 非常 少 的 别 
的 实体 之 外 ， 全 部 中 的 任何 设备 控制 操作 都 由 特定 于 要 寻 址 的 设备 相关 的 代码 来 进 
ÍT. 这 些 代 码 称 为 设备 驱动 ， 内 核 中 必须 嵌入 系统 中 出 现 的 每 个 外 设 的 驱动 ， 从 硬 
盘 驱 动 到 键盘 和 磁带 驱动 器 .内 核 功 能 的 这 个 方面 是 本 书 中 的 我 们 主要 感 兴 趣 的 地 


A. 


网 络 























网 络 必须 由 操作 系统 来 管理 ， 因 为 大 部 分 网 络 操作 不 是 特定 于 茶 一 个 进程 : 进入 系 
统 的 报 文 是 异步 事件 ， 报 文 在 菜 一 个 进程 接手 之 前 必须 被 收集 ， 识 别 ， 分 发 ， 系统 
负责 在 程序 和 网 络 接口 之 间 递 送 数据 报 文 ， 它 必须 根据 程序 的 网 络 活动 来 控制 程序 
的 执行 ， 另外， 所 有 的 路 由 和 地 址 解析 问题 都 在 内 核 中 实现 . 


1.2.1. 可 加 载 模块 




















Linux 的 众多 优良 特性 之 一 就 是 可 以 在 运行 时 扩展 由 内 核 提 供 的 特性 的 能 力 ， 这 意味 着 你 
可 以 在 系统 正在 运行 着 的 时 候 增加 内 核 的 功能 ( 也 可 以 去 除 ). 











每 块 可 以 在 运行 时 添加 到 内 核 的 代码 ， 被 称 为 一 个 模块 ，Linux 内 核 提 供 了 对 许多 模块 类 
型 的 支持 ， 包 括 但 不 限于 ， 设 备 驱 动 ， 每 个 模块 由 目标 代码 组 成 ( 没有 连接 成 一 个 完整 可 





执行 文件 )， 可 以 动态 连接 到 运行 中 的 内 核 中 ， 通 过 insmod 程序 ， 以 及 通过 rmmod 程 


序 去 连接 . 
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图 内 核 的 划分 表示 了 负责 特定 任务 的 不 同类 别 的 模块 ， 一 个 模块 是 根据 它 提供 的 功能 3 
说 它 属 于 一 个 特别 类 别 的 ， 图 内 核 的 划分 中 模块 的 安排 涵盖 了 最 重要 的 类 别 ， 但 是 远 未 
完整 ， 因 为 在 Linux 中 越 来 越 多 的 功能 被 模块 化 了 . 


图 1.1. 内核 的 划分 





The System Call Interface 


subsystems 


Files and dirs: Ttys & E Features 
the VFS device access Connectivity implemented 


Character 
devices 


IF drivers 


AL. 


ITITITTTI 
CPU Memory Disks & CDs Consoles, 
etc. interfaces 


O features implemented as modules 





1. 3， 设 备 和 模块 的 分 类 


以 Linux 的 方式 看 待 设备 可 区 分 为 3 种 基本 设备 类 型 ,每 个 模块 第 常 实现 3 种 类 型 中 
的 1 种 ， 因 此 可 分 类 成 字符 模块 ， 块 模块 ， 或 者 一 个 网 络 模 块 ， 这 种 将 模块 分 成 不 同类 
型 或 类 别 的 方法 并 非 是 固定 不 变 的 ; 程序 员 可 以 选择 建立 在 一 个 大 块 代码 中 实现 了 不 同 驱 
动 的 巨大 模块 但是， 好 的 程序 员 ， 常 常 创建 一 个 不 同 的 模块 给 每 个 它们 实现 的 新 功能 ， 
因为 分 解 是 可 伸缩 性 和 可 扩张 性 的 关键 因素 . 











3 类 驱动 如 下 : 


一 个 字符 ( char ) 设备 是 一 种 可 以 当 作 一 个 字 节 流 来 存 取 的 设备 ( 如 同一 个 文 
件 ) ; 一 个 字符 驱动 负责 实现 这 种 行为 ， 这 样 的 驱动 常常 至 少 实现 open, close, 
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read, JI write 系统 调用 . 文本 控制 台 ( /dev/console ) 和 串口 ( /dev/ttyS0 及 
其 友 ) 是 字符 设备 的 例子 ， 因 为 它们 很 好 地 展现 了 流 的 抽象 .字符 设备 通过 文件 系 
统 结 点 来 存 取 ， 例 如 /dev/ttyl 和 /dev/1p0， 在 一 个 字符 设备 和 一 个 普通 文件 之 
间 唯 一 有 关 的 不 同 就 是 ， 你 经 稼 可 以 在 普通 文件 中 移 来 移 去 ， 但 是 大 部 分 字符 设备 
仅仅 是 数据 通道 ， 你 只 能 顺序 存 取 . 然而 ， 存 在 看 起 来 象 数据 区 的 字符 设备 ， 你 可 
以 在 里 面 移 来 移 去 ， 例如，frame grabber 经 常 这 样 ， 应 用 程序 可 以 使 用 mmap 或 
者 lseek 存 取 整 个 要 求 的 图 像 . 


块 设备 





























如 同 字符 设备 ， 块 设备 通过 位 于 /dev 目录 的 文件 系统 结 点 来 存 取 ， 一 个 块 设 备 
〈 例 如 一 个 磁盘 ) 应 该 是 可 以 驻 有 一 个 文件 系统 的 ， 在 大 部 分 的 Unix 系统 ， 一 个 块 
设备 只 能 处 理 这 样 的 1/0 操作 ， 传 送 一 个 或 多 个 长 度 经 常 是 512 字 节 ( 或 一 个 更 
大 的 2 BUE] ) 的 整 块 ， Linux， 相 反 ， 人 允许 应 用 程序 读 写 一 个 块 设备 象 一 个 字 
符 设备 一 样 一 它 允 许 一 次 传送 任意 数目 的 学 节 ， 结 果 就 是 ， 块 和 字符 设备 的 区 别 
仅仅 在 内 核 在 内 部 管理 数据 的 方式 上 ， 并 且 因 此 在 内 核 /驱动 的 软件 接口 上 不 同 . 
如 同一 个 字符 设备 ， 每 个 块 设备 都 通过 一 个 文件 系统 结 点 被 存 取 的 ， 它 们 之 间 的 区 
别 对 用 户 是 透明 的 . 块 驱动 和 字符 驱动 相 比 ， 与 内 核 的 接口 完全 不 同 . 
































网 络 接口 





任何 网 络 事务 都 通过 一 个 接口 来 进行 ， 就 是 说 ， 一 个 能 够 与 其 他 主机 交换 数据 的 设 
备 ， 通常 ， 一 个 接口 是 一 个 硬件 设备 ， 但 是 它 也 可 能 是 一 个 纯粹 的 软件 设备 ， 比 如 
环 回 接口 ， 一 个 网 络 接口 负责 发 送 和 接收 数据 报 文 ， 在 内 核 网 络 子 系统 的 驱动 下 ， 
不 必 知 道 单个 事务 是 如 何 映射 到 实际 的 被 发 送 的 报 文 上 的 .很 多 网 络 连接 〈 特别 那 
些 使 用 TCP 的 ) 是 面向 流 的 ， 但 是 网 络 设备 却 常 第 设计 成 处 理 报 文 的 发 送 和 接收 ， 
一 个 网 络 驱 动 对 单个 连接 一 无 所 知 ， 它 只 处 理 报 文 . 

















既然 不 是 一 个 面向 流 的 设备 ， 一 个 网 络 接口 就 不 象 /dev/ttyl 那么 容易 映射 到 文 
件 系统 的 一 个 结 点 上 . Unix 提供 的 对 接口 的 存 取 的 方式 仍然 是 通过 分 配 一 个 名 子 
给 它们 ( 例如 eth0 )， 但 是 这 个 名 子 在 文件 系统 中 没有 对 应 的 入 口 ， 内 核 与 网 络 
设备 驱动 间 的 通讯 与 字符 和 块 设备 驱动 所 用 的 完全 不 同 ， 不 用 read 和 write, W 
核 调 用 和 报 文 传递 相关 的 函数 . 


























有 其 他 的 划分 驱动 模块 的 方式 ， 与 上 面 的 设备 类 型 是 正 交 的 . 通常， 某 些 类 型 的 驱动 与 给 
定 类 型 设备 的 其 他 层 的 内 核 支持 函数 一 起 工作 ， 例 如， 你 可 以 说 USB 模块 ， 串 口 模块 ， 
SCSI 模块 ， 等 等 ， 每 个 USB 设备 由 一 个 USB 模块 驱动 ， 与 USB 子 系 统一 起 工作 ， 但 是 
设备 自身 在 系统 中 表现 为 一 个 字符 设备 ( 比如 一 个 USB 串口 )， 一 个 块 设备 ( 一 个 USB 
内 存 读 卡 器 )， 或 者 一 个 网 络 设备 ( 一 个 USB 以 太 网 接口 ). 

















另外 的 设备 驱动 类 别 近来 已 经 添加 到 内 核 中 ， 包 括 FireWire 驱动 和 I20 驱动 ， 以 它们 
处 理 USB 和 SCSI 驱动 相同 的 方式 ， 内 核 开 发 者 集合 了 类 别 范 围 内 的 特性 ， 并 把 它们 输 
出 给 驱动 实现 者 ， 以 避免 重复 工作 和 bug， 因 此 简化 和 加 强 了 编写 类 似 驱 动 的 过 程 . 














在 设备 驱动 之 外 ， 别 的 功能 ， 不 论 人 硬件 和 软件 ， 在 内 核 中 都 是 模块 化 的 .一 个 普通 的 例子 
是 文件 系统 ， 一 个 文件 系统 类 型 决定 了 在 块 设备 上 信息 是 如 何 组 织 的 ， 以 便 能 表示 一 棵 目 
录 与 文件 的 树 . 这样 的 实体 不 是 设备 驱动 ， 因 为 没有 明确 的 设备 与 信息 摆 放 方式 相 联系 ; 
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文件 系统 类 型 却 是 一 种 软件 驱动 ， 因 为 它 将 低级 数据 结构 映射 为 高 级 的 数据 结构 ， 文 件 系 
统 决定 一 个 文件 名 多 长 ， 以 及 在 一 个 目录 入 口中 存储 每 个 文件 的 什么 信息 .文件 系统 模块 
必须 实现 最 低级 的 系统 调用 ， 来 存 取 目 录 和 文件 ， 通 过 映射 文件 名 和 路 径 ( 以 及 其 他 信息 ， 
例如 存 取 模 式 ) 到 保存 在 数据 块 中 的 数据 结构 这样 的 一 个 接口 是 完全 与 数据 被 传送 来 去 
磁盘 ( 或 其 他 介质 ) 相互 独立 ， 这 个 传送 是 由 一 个 块 设备 驱动 完成 的 . 























如 果 你 考虑 一 个 Unix 系统 是 多 么 依赖 下 面 的 文件 系统 ， 你 会 认识 到 这 样 的 一 个 软件 概念 
对 系统 操作 是 至 关 重 要 的 ， 解 码 文件 系统 信息 的 能 力 处 于 内 核 层 级 中 最 低级 ， 并 且 是 最 重 
要 的 ; 甚至 如 果 你 为 你 的 新 CD-ROM 编写 块 驱 动 ， 如 果 你 对 上 面 的 数据 不 能 运行 1s 或 者 
cp MÆLA. Linux 支持 一 个 文件 系统 模块 的 概念 ， 其 软件 接口 声明 了 不 同 操作 ， 可 
以 在 一 个 文件 系统 和 节点， 目录， 文件 和 超级 其 上 进行 操作 ， 对 一 个 程序 员 来 说 ， 居 然 需 要 
编写 一 个 文件 系统 模块 是 非常 不 常见 的 ， 因 为 官方 内 核 已 经 包含 了 大 部 分 重要 的 文件 系统 
类 型 的 代码 . 


1. 4， 安 全 问题 


安全 是 当今 重要 性 不 断 增长 的 关注 点 ， 我 们 将 讨论 安全 相关 的 问题 ， 在 它们 在 本 书 中 出 现 
时 ， 有 几 个 通用 的 概念 ， 却 值得 现在 提 一 下 . 









































系统 中 任何 安全 检查 都 由 内 核 代 码 强加 上 去 . 如 果 内 核 有 安全 漏洞 ， 系 统 作为 一 个 整体 就 
有 漏洞 ， 在 官方 的 内 核发 布 里 ， 上 只 有 一 个 有 授权 的 用 户 可 以 加 载 模块 ; 系统 调用 

init module 检查 调用 进程 是 否 是 有 权 加 载 模块 到 内 核 里 ， 因 此 ， 当 运行 一 个 官方 内 核 时 ， 
只 有 超级 用 户 ”' 或 者 一 个 成 功 获得 特权 的 入 侵 者 ， 才 可 以 利用 特权 代码 的 能 




















在 可 能 时 ， 驱 动 编写 者 应 当 避 免 将 安全 策略 编 到 他 们 的 代码 中 ， 安 全 是 一 个 策略 问题 ， 最 
好 在 内 核 高 层 来 处 理 ， 在 系统 管理 员 的 控制 下 ， 但 是 ， 常 有 例外 . 























作为 一 个 设备 驱动 编写 者 ， 你 应 当知 道 在 什么 情形 下 ， 茶 些 类 型 的 设备 存 取 可 能 反面 地 影 
啊 系 统 作为 一 个 整体 ， 并 且 应 当 提 供 足 够 地 控制 ， 例如， 会 影响 全 局 资源 的 设备 操作 (〈 例 
如 设置 一 条 中 断 线 )， 可 能 会 损坏 硬件 ( 例如 ， 加 载 固件 )， 或 者 它 可 能 会 影响 其 他 用 户 
( 例如 设置 一 个 磁带 驱动 的 缺 省 的 块 大 小 )， 常 第 是 只 对 有 足够 授权 的 用 户 ， 并 且 这 种 检 
查 必 须 由 驱动 自身 进行 . 




















驱动 编号 者 也 必须 要 小 心 ， 当 然 ， 来 避免 引入 安全 bug. C 编程 语言 使 得 易于 犯 下 儿 类 的 
普 误 .例如 ， 许 多 现今 的 安全 问题 是 由 于 绥 冲 区 窗 新 引起 ， 它 是 由 于 程序 员 忘 记 检 查 有 多 
少数 据 写 入 缓冲 区 ， 数 据 在 缓冲 区 结尾 之 外 结束 ， 因 此 履 盖 了 无 关 的 数据 ， 这 样 的 错误 可 
能 会 危及 整个 系统 的 安全 ， 必 须 避 人 免 ， 幸 运 的 是 ， 在 设备 驱动 上 下 文中 避免 这 样 的 错误 经 
常 是 相对 容易 的 ， 这 里 对 用 户 的 接口 经 过 精细 定义 并 被 高 度 地 控制 . 






































一 些 其 他 的 通用 的 安全 观念 也 值得 牢记 .任何 从 用 户 进程 接收 的 输入 应 当 以 极 大 的 怀疑 态 
度 来 对 待 ; 除非 你 能 核实 它 ， 否 则 不 要 信任 它 ， 小心 对 待 未 初始 化 的 内 存 ; 从 内 核 获取 的 
任何 内 存 应 当 清 零 或 者 在 其 对 用 户 进程 或 设备 可 用 之 前 进行 初始 化 .否则 ， 可 能 发 生 信 息 
泄漏 ( 数据 ， 密 码 的 暴露 等 等 )， 如 果 你 的 设备 解析 发 送 给 它 的 数据 ， 要 确保 用 户 不 能 发 
送 任何 能 危及 系统 的 东西 ， 最 后 ， 考 虑 一 下 设备 操作 的 可 能 后 果 ; 如 果 有 特定 的 操作 ( 例 
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从 技术 上 讲 ， 只 有 具有 CAP. SYS MODULE 权利 的 人 才 可 以 进行 这 个 操作 .我 们 第 6 章 讨论 capabilities . 
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如 ， 加 载 一 个 适 配 卡 的 固件 或 者 格式 化 一 个 磁盘 )， 能 影响 到 系统 的 ， 这 些 操作 应 该 完全 
确定 地 要 限制 在 授权 的 用 户 中 . 



































也 要 小 心 ， 当 从 第 三 方 接收 软件 时 ， 特 别 是 与 内 核 有 关 : 因为 每 个 人 都 可 以 接触 到 源码 ， 
每 个 人 都 可 以 分 拆 和 重组 东西 .尽管 你 能 够 信任 在 你 的 发 布 中 的 预 编译 的 内 核 ， 你 应 当 避 
免 运行 一 个 由 不 能 信任 的 朋友 编译 的 内 核 -- 如 果 你 不 能 作为 root 运行 预 编译 的 二 进 制 
文件 ， 那 么 你 最 好 不 要 运行 一 个 预 编译 的 内 核 ， 例如， 一 个 经 过 了 恶意 修改 的 内 核 可 能 会 
允许 任何 人 加 载 模 块 ， 这 样 就 通过 init_module 开启 了 一 个 不 想 要 的 后 门 . 






































注意 ，Linux 内 核 可 以 编译 成 不 支持 任何 属于 模块 的 东西 ， 因 此 关闭 了 任何 模块 相关 的 安 
全 漏洞 .在 这 种 情况 下 ， 当 然 ， 所 有 需要 的 驱动 必须 直接 建立 到 内 核 自身 内 部 .在 2.2 
和 以 后 的 内 核 ， 也 可 以 在 系统 启动 之 后 ， 通 过 capability 机 制 来 禁止 内 核 模 块 的 加 载 . 


1.5. 版 本 编号 


在 深入 编程 之 前 ， 我 们 应 当 对 Linux 使 用 的 版 本 编号 方法 和 本 书 涉及 的 版 本 做 些 说 明 . 





























首先 ， 注 意 的 是 在 Linux 系统 中 使 用 的 每 一 个 软件 包 有 自己 的 发 行 版 本 号 ， 它 们 之 间 存 

在 相互 依赖 性 : 你 需要 一 个 包 的 特别 的 版 本 来 运行 妨 外 一 个 包 的 特别 版 本 ，Linux 发 布 的 
创建 者 常 第 要 处 理 匹 配 软件 包 的 繁琐 问题 ， 这 样 用 户 从 一 个 已 打包 好 的 发 布 中 安装 就 不 需 
要 处 理 版 本 号 的 问题 了 ， 另 外 ， 那 些 替 换 和 更 新 系统 软件 的 人 ， 就 要 目 己 处 理 这 个 问题 了 . 
境 运 的 是 ， 几 乎 所 有 的 现代 发 布 支持 单个 软件 包 的 更 新 ， 通 过 检查 软件 包 之 间 的 依赖 性 ; 

发 布 的 软件 包 管 理 器 通常 不 允许 更 新 ， 直 到 满足 了 依赖 性 . 













































































为 了 运行 我 们 在 讨论 过 程 中 介绍 的 例子 ， 你 除了 2.6 内 核 要 求 的 之 外 不 需要 任何 工具 的 
村 别 版 本 ; 任何 近期 的 Linux 发 布 都 可 以 用 来 运行 我 们 的 例子 .我 们 不 详 述 特别 的 要 求 ， 
因为 你 内 核 源码 中 的 文件 Document/Changes 是 这 种 信息 的 最 好 的 来 源 ， 如 果 你 过 到 任何 
问题 . 

















至 于 说 内 核 ， 偶 数 的 内 核 版 本 ( 就 是 说 ，2. 6. x ) 是 稳定 的 ， 用 来 做 通用 的 发 布 ， 奇 数 版 
本 ( 例如 2.7.x )， 相 反 ， 是 开发 快照 并 且 是 非常 短暂 的 ; 它们 的 最 新 版 本 代表 了 开发 的 
当前 状态 ， 但 是 会 在 儿 天 内 就 过 时 了 . 








本 书 涵盖 内 核 2.6 版 本 .我们 的 目标 是 为 设备 驱动 编写 者 展示 2. 6. 10 内 核 的 所 有 可 用 
的 特性 ， 这 是 我 们 在 编写 本 书 时 的 内 核 版 本 ， 本 书 的 这 一 版 不 涉及 内 核 的 其 他 版 本 .你 们 
有 人 感 兴趣 的 话 ， 本 书 第 2 版 详细 涵盖 2.0 到 2.4 版 本 ， 那个 版 本 依然 在 
htt://lwn.net/Kernel/LDD2 在 线 获取 到 . 


内 核 程 序 员 应 当 明 白 到 2.6 内 核 的 开发 过 程 的 改变 ，2.6 系列 现在 接受 之 前 可 能 认为 对 
一 个 “稳定 ”的 内 核 太 大 的 更 改 . 在 其 他 的 方面 ， 这 意味 着 内 核 内 部 编程 接口 可 能 改变 ， 
此 潜在 地 会 使 本 书 某 些 部 分 过 时 ;基于 这 个 原因 ， 伴 随 着 文本 的 例子 代码 已 知 可 以 在 
2.6.10 上 运行 ， 但 是 某 些 模块 没有 在 之 前 的 版 本 上 编译 ， 想 紧 跟 内 核 编 程 变化 的 程序 员 
最 好 加 入 邮件 列表 ， 并 且 利 用 列 在 参考 书目 中 的 网 站 . 也 有 一 个 网 页 在 
http://lwn.net/Articls/2.6-kernel-api 上 维护 ， 它 包含 自 本 书 出 版 以 来 的 API 改变 
的 信息 . 
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本 文 不 特别 地 谈论 奇数 内 核 版 本 ， 普 通用 户 不 会 有 理由 运行 开发 中 的 内 核 ， 试验 新 特性 的 
开发 者 ， 但 是 ， 想 运行 最 新 的 开发 版 本 .他 们 常常 不 停 更 新 到 最 新 的 版 本 ， 来 收集 bug 
的 修正 和 新 的 特性 实现 .但 是 注意 ， 试 验 中 的 内 核 没 有 任何 保障 “， 如 果 你 由 于 一 个 非 当 
前 的 奇数 版 本 内 核 的 一 个 bug 而 引起 的 问题 ， 没 人 可 以 帮 你 .那些 运行 奇数 版 本 内 核 的 
常常 是 足够 熟练 的 深入 到 代码 中 ， 不 需要 一 本 教科 书 ， 这 也 是 我 们 为 什么 不 谈论 开发 中 
的 内 核 的 男 一 个 原因 . 



































Linux 的 另 一 个 特性 是 它 是 平台 独立 的 操作 系统 ， 并 非 仅仅 是 ”PC 克隆 体 的 一 种 Unix 
克隆 “， 更 多 的 : 它 当 前 支持 大 约 20 种 体系 . 本 书 是 尽 可 能 地 平台 独立 ， 所 有 的 代码 例 
子 至 少 是 在 x86 和 x86-64 平台 上 测试 过 ， 因 为 代码 已 经 在 32-bit 和 64-bit 处 理 器 
上 测试 过 ， 它 应 当 能 够 在 所 有 其 他 平台 上 编译 和 运行 如同 你 可 能 期 户 地 ， 依 赖 特殊 硬件 
的 代码 例子 不 会 在 所 有 支持 的 平台 上 运行 ， 但 是 这 个 通常 在 源码 里 说 明了 . 


1. 6， 版 权 条 于 


Linux 是 以 GNU 通用 公共 版 权 ( GPL ) 的 版 本 2 作为 许可 的 ， 它 来 自 自由 软件 基金 的 
GNU MH. GPL 允许 任何 人 重 发 布 ， 甚 至 是 销售 ，GPL 涵盖 的 产品 ， 只 要 接收 方 对 源码 能 
存 取 并 且 能 够 行使 同样 的 权力 ， 另外， 任何 源 自 使 用 GPL 产品 的 软件 产品 ， 如 果 它 是 完 
全 的 重新 发 布 ， 必 须 置 于 GPL 之 下 发 行 . 






































这 样 一 个 许可 的 主要 目的 是 允许 知识 的 增长 ， 通 过 同意 每 个 人 去 任意 修改 程序 ; 同时 ， 销 
售 软件 给 公众 的 人 仍然 可 以 做 他 们 的 工作 ， 尽 管 这 是 一 个 简单 的 目标 ， 关 于 GPL 和 它 的 
使 用 存在 着 从 未 结束 的 讨论 ， 如 果 你 想 阅 读 这 个 许可 证 ， 你 能 够 在 你 的 系统 中 几 个 地 方 发 
现 它 ， 包 括 你 的 内 核 源码 树 的 目录 中 的 COPYING 文件 . 























供应 商 常 常 询问 他 们 是 否 可 以 只 发 布 二 进 制 形式 的 内 核 模块 ， 对 这 个 问题 的 答案 已 是 有 意 
让 它 模 糊 不 清 ， 二进制 模块 的 发 布 一 只 要 它们 依附 预 已 公布 的 内 核 接口 一 至 今 已 是 被 
接受 了 ， 但 是 内 核 的 版 权 由 许多 开发 者 持 有 ， 并 且 他 们 不 是 全 都 同意 内 核 模块 不 是 衍生 产 
品 ， 如 果 你 或 者 你 的 雇主 想 在 非 自 由 的 许可 下 发 布 内 核 模块 ， 你 真正 需要 的 是 和 你 的 法 律 
顾问 讨论 ， 请 注意 内 核 开发 者 不 会 对 于 在 内 核发 行 之 间 破 坏 二 进 制 模块 有 任何 疑虑 ， 甚 全 
在 一 个 稳定 的 内 核 系 列 之 间 ， 如 果 它 根本 上 是 可 能 的 ， 你 和 你 的 用 户 最 好 以 自由 软件 的 方 
式 发 行 你 的 模块 . 
































如 果 你 想 你 的 代码 进入 主流 内 核 ， 或 者 如 果 你 的 代码 需要 对 内 核 的 补丁 ， 你 在 发 行 代码 时 ， 
必须 立刻 使 用 一 个 GPL 兼容 的 许可 .尽管 个 人 使 用 你 的 改变 不 需要 强加 GPL， 如 果 你 发 

布 你 的 代码 ， 你 必须 包含 你 的 代码 到 发 布 里 面 一 要 求 你 的 软件 包 的 人 必须 被 允许 任意 重 
建 二 进 制 的 内 容 . 









































至 于 本 书 ， 大 部 分 的 代码 是 可 自由 地 重新 发 布 ， 要 么 是 源码 形式 ， 要 么 是 二 进 制 形式 ， 我 
们 和 0 Reilly 都 不 保留 任何 权利 对 任何 的 衍生 的 工作 ， 所 有 的 程序 都 可 从 
ftp://ftp. ora. com/pub/examples/linux/drivers/ 得 到 ， 详 尽 的 版 权 条 款 在 相同 目录 中 
的 LICENSE 文件 里 阐述 . 























”注意 ， 对 于 偶数 版 本 的 内 核 也 不 存在 保证 ， 除 非 你 依靠 一 个 同意 提供 它 自 己 的 担保 的 商业 供应 商 . 
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1. 7.. 加 入 内 核 开 发 社团 


在 你 开始 为 Linux 内 核 编写 模块 时 ， 你 就 成 为 一 个 开发 者 大 社团 的 一 部 分 ， 在 这 个 社团 
中 ， 你 不 仪 会 发 现 有 人 忙碌 于 类 似 工 作 ， 还 有 一 群 特别 投入 的 工程 师 努 力 使 Linux 成 为 
更 好 的 系统 ， 这 些 人 可 以 是 帮助 ， 理 念 ， 以 及 关键 的 审查 的 来 源 ， 以 及 他 们 将 是 你 愿意 求 
助 的 第 一 类 人 ， 当 你 在 寻找 一 个 新 驱动 的 测试 者 . 



































对 于 Linux 内 核 开 发 者 ， 中 心 的 汇聚 点 是 Linux 内 核 邮件 列表 . 所 有 主要 的 内 核 开发 者 ， 
从 Linus Torvalds 到 其 他 人 ， 都 订阅 这 个 列表 ， 请 注意 这 个 列表 不 适合 心力 衰弱 的 人 : 

每 天 或 者 几 天 内 的 书写 流量 可 能 多 至 200 AXE. 但 是 ， 随 这 个 列表 之 后 的 是 对 那些 感 

兴趣 于 内 核 开 发 的 人 重要 的 东西 ; 它 也 是 一 个 最 高 品质 的 资源 ， 对 那些 需要 内 核 开 发 帮助 
的 人 . 




















为 加 入 Linux KIZIK, HRE Linux 内 核 邮 件 列表 FAQ: http://www. tux. org/1kml 
中 的 指示 .阅读 这 个 FAQ 的 剩余 部 分 ， 当 你 熟悉 它 时 ;那里 有 大 量 的 有 用 的 信息 . Linux 
内 核 开发 者 都 是 忙碌 的 人 ， 他 们 更 多 地 愿意 帮助 那些 已 经 清楚 地 首先 完成 了 属于 自己 的 那 
部 分 工作 的 人 . 


1. 8， 本 书 的 内 容 


从 这 里 开始 ， 我 们 进入 内 核 编 程 的 世界 . 第 2 章 介绍 了 模块 化 ， 解 释 了 内 部 的 秘密 以 及 
展示 了 运行 模块 的 代码 ， 第 2 章 谈论 字符 驱动 以 及 展示 一 个 基于 内 存 的 设备 驱动 的 代码 ， 
出 于 乐趣 对 它 读 写 ， 使 用 内 存 作 为 设备 的 人 硬件 基础 使 得 任何 人 可 以 不 用 要 求 特 殊 的 硬件 来 
运行 代码 . 















































调试 技术 对 程序 员 是 必 备 的 工具 ， 第 4 章 介 绍 它 .对 那些 想 分 析 当 前 内 核 的 人 同样 重要 
的 是 并 发 的 管理 和 竞争 情况 .第 5 章 关 注 的 是 由 于 并 发 存 取 资 源 而 导致 的 问题 ， 并 且 介 
绍 控制 并 发 的 Linux 机 制 |. 




















在 具备 了 调试 和 并 发 管理 的 能 力 下 ， 我 们 转向 字符 驱动 的 高 级 特性 ， 例 如 阻塞 操作 ， 
selet 的 使 用 ， 以 及 重要 的 ioctl 调用 ; 这 是 第 6 章 的 主题 . 

















在 处 理 人 硬件 管理 之 前 ， 我 们 研究 多 一 点 内 核 软件 接口 : 第 7 章 展示 了 内 核 中 是 如 何 管理 
时 间 的 ， 第 8 章 讲 解 了 内 存 分 配 . 
































接 下 来 我 们 集中 到 硬件 ， 第 9 章 描 述 了 1/0 口 的 管理 和 设备 上 的 内 存 缓存 ; 随后 是 中 断 
处 理 ， 在 第 10 章 ， 不 六 的 是 ， 不 是 每 个 人 都 能 运行 这 些 章节 中 的 例子 代码 ， 因 为 确实 
需要 某 些 硬件 来 测试 软件 接口 中 断 ， 我 们 尽力 保持 需要 的 硬件 文 持 到 最 小 程度 ， 但 是 你 仍 
然 需要 某 些 硬件 ， 例 如 标准 并 口 ， 来 使 用 这 些 章节 的 例子 代码 . 












































第 11 章 涉 及 内 核 数 据 类 型 的 使 用 ， 以 及 编写 可 移植 代码 . 




















本 书 的 第 2 半 专 注 于 更 高 级 的 主题 .我 们 从 深入 硬件 内 部 开始 ， 特 别 的 ， 是 特殊 外 设 总 
线 功 能 ， 第 12 章 涉及 编写 PCI 设备 驱动 ， 第 13 章 检 验 使 用 USB 设备 的 API. 


























具有 了 对 外 设 总 线 的 理解 ， 我 们 详细 看 一 下 Linux 设备 模型 ， 这 是 内 核 使 用 的 抽象 层 来 
描述 它 管理 的 硬件 和 软件 资源 ， 第 14 章 是 一 个 自 底 向 上 的 设备 模型 框架 的 考察 ， 从 
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kobject 类 型 开始 以 及 从 那里 进一步 进行 ， 它 涉及 设备 模型 与 真实 设备 的 集成 ;， 接 下 来 是 
利用 这 些 知识 来 接触 如 热 插 拔 设备 和 电源 管理 等 主题 . 











在 第 15 章 ， 我 们 转移 到 Linux 的 内 存 管理 .这 一 章 显 示 如 何 映射 系统 内 存 到 用 户 空间 
( map 系统 调用 )， 映 射 用 户 内 存 到 内 核 空间 ( 使 用 get user pages )， 以 及 如 何 映射 
任何 一 种 内 存 到 设备 空间 ( 进行 直接 内 存 存 取 [DMA] 操作 ). 








我 们 对 内 存 的 理解 将 对 下 面 两 章 是 有 用 的 ， 它 们 涉及 到 其 他 主要 的 驱动 类 型 第 16 章 介 
绍 了 块 驱动 ， 并 展示 了 与 我 们 到 现在 为 止 已 遇 到 过 的 字符 张 动 的 区 别 . 第 17 章 进入 网 络 
驱动 的 编写 ， 我 们 最 后 是 讨论 串 行 驱 动 (第 18 章 ) 和 一 个 参考 书目 . 
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第 2 章 建立 和 运行 模块 


时 间 差 不 多 该 开始 编程 了 .本章 介绍 所 有 的 关于 模块 和 内 核 编程 的 关键 概念 在 这 几 页 里 ， 我 们 建立 并 
运行 一 个 完 整 (但 是 相对 地 没有 什么 用 处 ) 的 模块 并 且 查 看 一 些 被 所 有 模块 共用 的 基本 代码 .开发 这 样 
的 专门 技术 对 任何 类 型 的 模块 化 的 驱动 都 是 重要 的 基础 ， 为 避免 一 次 抛 出 太 多 的 概念 ， 本 章 只 论 及 模块 ， 
不 涉及 任何 特别 的 设备 类 型 . 




















































































































在 这 里 介绍 的 所 有 的 内 核 项 ( 函数 ， 变 量 ， 头 文件 ， 和 宏 ) 在 本 章 的 结尾 的 参考 一 节 里 有 说 明 . 


2. 1. 设置 你 的 测试 系统 


在 本 章 开始 ， 我 们 提供 例子 模块 来 演示 编程 概念 . 〈 所 有 的 例子 都 可 从 O Reilly s 的 
FTP 网 站 上 得 到 ， 如 第 1 章 解释 的 那样 ) 建立 ， 加 载 ， 和 修改 这 些 例 子 ， 是 提高 你 对 驱动 
如 何 工 作 以 及 如 何 与 内 核 交 互 的 理解 的 好 方法 . 



















































































例子 模块 应 该 可 以 在 大 部 分 的 2. 6. x 内 核 上 运行 ， 包 括 那些 由 发 布 供应 商 提 供 的 .但 是 ， 
我 们 建议 你 获得 一 个 主流 内 核 ， 直 接 从 kernel. org 的 镜像 网 络 ， 并 把 它 安装 到 你 的 系统 
中 ， 供 应 商 的 内 核 可 能 是 主流 内 核 被 重重 地 打 了 补丁 并 且 和 主流 内 核 有 分 监 ; 偶尔， 供应 
商 的 补丁 可 能 改变 了 设备 驱动 可 见 的 内 核 API. P us 
行 的 驱动 ， 你 当然 要 在 相应 的 内 核 上 建立 和 测试 ， 但 是 ， 处 于 学 习 驱 动 编写 的 目的 ， 
标准 内 核 是 最 好 的 . 


不 管 你 的 内 核 来 源 ， 建 立 2. 6. x 的 模块 需要 你 有 一 个 配置 好 并 建立 好 的 内 核 树 在 你 的 系统 
中 .这 个 要 求 是 从 之 前 内 核 版 本 的 改变 ， 之 前 只 要 有 一 套 当 前 版 本 的 头 文件 就 是 够 了 ，2. 6 
模块 针对 内 核 源码 树 里 找到 的 目标 文件 连接 ; 结果 是 一 个 更 加 健壮 的 模块 加 载 器 ， 还 要 求 
那些 目标 文件 也 是 可 用 的 .因此 你 的 第 一 个 商业 订单 是 具备 一 个 内 核 源码 树 ( 或 者 从 
krenel. org 网 络 或 者 你 的 发 布 者 的 内 核 源 码 包 )， 建 立 一 个 新 内 核 ， 并 且 安 装 到 你 的 系统 . 
因为 我 们 稍 后 会 见 到 的 原因 ， 生 活 通常 是 最 容易 的 如 果 当 你 建立 模块 时 真正 运行 目标 内 核 ， 
尽管 这 不 是 需要 的 . 
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P | 注意 
你 应 当 也 考虑 一 下 在 哪里 进行 你 的 模块 试验 ， 开 发 和 测试 ， 我 们 已 经 尽力 使 我 们 的 例子 模块 安全 和 
正确 ， 但 是 bug 的 可 能 性 是 经 常会 有 的 . ee pe tb 个 用 户 进 程 的 死亡 ， 或 
者 偶尔 ， 竣 痪 整个 系统 ， 它 们 正常 地 不 会 导致 更 严重 地 后 果 ， 例 如 磁盘 损伤 ， 然 而， 还 是 建议 你 进 
行 你 的 内 核 试 验 在 一 个 没有 包含 你 负担 不 起 丢失 的 数据 的 系统 ， 并 且 没 有 进行 重要 的 服务 ， 内 核 开 
发 者 由 型 地 会 保留 一 全 “ 町 竹 “系统 来 测试 新 的 代码 














































































































因此 ， 如 果 你 还 没有 一 个 合适 的 系统 ， 带 有 一 个 配置 好 并 建立 好 的 源码 树 在 磁盘 上 ， 现 在 
一 旦 这 个 任务 完成 ， 你 就 准备 好 开始 摆布 内 核 模 块 了 . 


2.2. Hello World 模块 
许多 编程 书籍 从 一 个 "hello wor1d” 例 子 开始 ， 作 为 一 个 展示 可 能 的 最 简单 的 程序 的 方法 . 


本 书 涉及 的 是 内 核 模块 而 不 是 程序 因此 ， 对 无 耐心 的 读者 ， 下 面 的 代码 是 一 个 完整 的 
"hello world" 模块 : 
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Hinclude <linux/init. h> 
#include <linux/module. h> 
MODULE_LICENSE (“Dual BSD/GPL^); 


static int hello init (void) 

{ 
printk (KERN ALERT "Hello, world in^); 
return 0; 

} 

static void hello exit (void) 


{ 
printk (KERN ALERT "Goodbye, cruel worldWn^); 


} 


module init(hello init); 
module exit(hello exit); 


这 个 模块 定义 了 两 个 函数 ， 一 个 在 模块 加 载 到 内 核 时 被 调用 ( hello init ) 以 及 一 个 在 模 
块 被 去 除 时 被 调用 ( hello exit ). moudle init 和 module exit 这 几 行 使 用 了 特别 的 内 
核 宏 来 指出 这 两 个 函数 的 角色 .， 另 一 个 特别 的 宏 (MODULE LICENSE) 是 用 来 告知 内 核 ， 该 
模块 带 有 一 个 自由 的 许可 证 ; 没有 这 样 的 说 明 ， 在 模块 加 载 时 内 核 会 抱怨 . 





printk 函数 在 Linux 内 核 中 定义 并 且 对 模块 可 用 ; 它 与 标准 C 库 函 数 printf 的 行为 相 
似 ， 内 核 需 要 它 自 己 的 打印 函数 ， 因 为 它 靠 自己 运行 ， 没 有 C 库 的 帮助 . 模块 能 够 调用 
printk 是 因为 ， 在 insmod 加 载 了 它 之 后 ， 模 块 被 连接 到 内 核 并 且 可 存 取 内 核 的 公用 符号 
(函数 和 变量 ， 下 一 节 详 述 )， 字 串 KERN ALERT 是 消息 的 优先 级 ，™ 














我 们 在 此 模块 中 指定 了 一 个 高 优先 级 ， 因 为 使 用 缺 省 优先 级 的 消息 可 能 不 会 在 任何 有 用 的 
地 方 显 示 ， 这 依赖 于 你 运行 的 内 核 版 本 ，klogd 和 守护 进程 的 版 本 ， 以 及 你 的 配置 . 现在 你 
可 以 忽略 这 个 因素 ; 我 们 在 第 4 章 讲解 它 . 














你 可 以 用 insmod 和 rmmod 工具 来 测试 这 个 模块 . 注意 只 有 超级 用 户 可 以 加 载 和 季 载 模块 . 


% make 
make[1]: Entering directory /usr/src/linux-2.6.10’ 
CC [M] /home/1dd3/src/mi sc-modules/hello. o 
Building modules, stage 2. 

MODPOST 

CC /home/1dd3/src/misc-modules/hello. mod. o 

LD [M] /home/1dd3/src/mi sc-modules/hello. ko 
make[1]: Leaving directory  /usr/src/linux-2. 6. 10 
% su 
root# insmod . /hello. ko 
Hello, world 

root# rmmod hello 
Goodbye cruel world 
root# 








3 Ll 




















优先 级 只 是 一 个 字 串 ， 例 如 《1>， 前 级 于 printk 格式 串 之 前 ， 注意 在 KERN ALERT 之 后 缺少 一 个 逗号 ; 添加 一 个 
逗号 在 那里 是 一 个 普通 的 讨厌 的 错误 〈 幸运 的 是 ， 编 译 器 会 捕捉 到 ). 
































12 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] [] O O [] IO [] O Linux[] HD] E] LU [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
请 再 一 次 注意 ， 为 使 上 面 的 操作 命令 顺序 工作 ， 你 必须 在 某 个 地 方 有 正确 配置 和 建立 的 内 
核 树 ， 在 那里 可 以 找到 makefile (/usr/src/linux-2. 6. 10， 在 展示 的 例子 里 面 )， 我 们 
在 “编译 和 加 载 。” 这 一 节 深 入 模块 建立 的 细 市 . 






































依据 你 的 系统 用 来 递交 消息 行 的 机 制 ， 你 的 输出 可 能 不 同 ， 特 别 地 ， 前 面 的 屏幕 输出 是 来 
自 一 个 字符 控制 台 ; 如 果 你 从 一 个 终端 模拟 器 或 者 在 窗口 系统 中 运行 insmod 和 rmmod, 
你 不 会 在 你 的 屏幕 上 看 到 任何 东西 消息 进入 了 其 中 一 个 系统 日 志文 件 中 ， 例 如 
/var/log/messages (实际 文件 名 子 随 Linux 发 布 而 变化 )， 内 核 递 交 消 息 的 机 制 在 第 4 
章 描述 . 

















如 你 能 见 到 的 ， 编 写 一 个 模块 不 是 如 你 想象 的 困难 一 至 少 ， 在 模块 没有 要 求 做 任何 有 用 
的 事情 时 ， 困 难 的 部 分 是 理解 你 的 设备 ， 以 及 如 何 获得 最 高 性 能 ， 通 过 本 章 我 们 深入 模块 
化 内 部 并 且 将 设备 相关 的 问题 留 到 后 续 章 节 . 


2. 3， 内 核 模 块 相 比 于 应 用 程序 


在 我 们 深入 之 前 ， 有 必要 强调 一 下 内 核 模块 和 应 用 程序 之 间 的 各 种 不 同 . 

















不 同 于 大 部 分 的 小 的 和 中 型 的 应 用 程序 从 头 至 尾 处 理 一 个 单个 任务 ， 每 个 内 核 模 块 只 注册 
目 己 以 便 来 服务 将 来 的 请 求 ， 并 且 它 的 初始 化 函数 立刻 终止 ， 换 句 话说， 模块 初始 化 函数 
的 任务 是 为 以 后 调用 模块 的 函数 做 准备 ; 好 像 是 模块 说 ，” 我 在 这 里 ， 这 是 我 能 做 的 .“ 模 
块 的 退出 函数 ( 例子 里 是 hello exit ) 就 在 模块 被 外 载 时 调用 ， 它 好 像 告诉 内 核 ， “我 不 
再 在 那里 了 ， 不 要 要 求 我 做 任何 事 了 .“ 这 种 编程 的 方法 类 似 于 事件 驱动 的 编程 ， 但 是 虽然 
不 是 所 有 的 应 用 程序 都 是 事件 驱动 的 ， 每 个 内 核 模块 都 是 ， 男 外 一 个 主要 的 不 同 ， 在 事件 
驱动 的 应 用 程序 和 内 核 代码 之 间 ， 是 退出 函数 : 一 个 终止 的 应 用 程序 可 以 在 释放 资源 方面 
懒惰 ， 或 者 完全 不 做 清理 工作 ， 但 是 模块 的 退出 函数 必须 小 心 恢 复 每 个 由 初始 化 函数 建立 
的 东西 ， 否 则 会 保留 一 些 东西 直到 系统 重启 . 















































偶然 地 ， 外 载 模块 的 能 力 是 你 将 最 欣赏 的 模块 化 的 其 中 一 个 特色 ， 因 为 它 有 助 于 减少 开发 
时 间 ; 你 可 测试 你 的 新 驱动 的 连续 的 版 本 ， 而 不 用 每 次 经 历 漫长 的 关机 /重启 周期 . 














作为 一 个 程序 员 ， 你 知道 一 个 应 用 程序 可 以 调用 它 没有 定义 的 函数 : 连接 阶段 使 用 合适 的 
函数 库 解 决 了 外 部 引用 .printf 是 一 个 这 种 可 调用 的 函数 并 且 在 libe 里 面 定义 ， 一 个 模 
块 ， 在 另 一 方面 ， 只 连接 到 内 核 ， 它 能 够 调用 的 唯一 的 函数 是 内 核 输出 的 那些 ; 没有 库 来 
连接 .在 hello.c 中 使 用 的 printk 函数 ， 例 如 ， 是 在 内 核 中 定义 的 printf 版 本 并 且 输 
出 给 模块 . 它 表 现 类 似 于 原始 的 函数 ， 只 有 几 个 小 的 不 同 ， 首 要 的 一 个 是 缺乏 浮 点 的 文 持 . 



































图 连接 一 个 模块 到 内 核 展示 了 函数 调用 和 函数 指针 在 模块 中 如 何 使 用 来 增加 新 功能 到 一 
个 运行 中 的 内 核 . 


图 2. 1 连接 一 个 模块 到 内 核 
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因为 没有 库 连 接 到 模块 中 ， 源 文件 不 应 当 包 含 通 常 的 头 文 件 , 《stdarg.h> 和 非常 特殊 的 情 
况 是 仅 有 的 例外 .只 有 实际 上 是 内 核 的 一 部 分 的 函数 才 可 以 在 内 核 模块 里 使 用 ， 内 核 相 关 
的 任何 东西 都 在 头 文件 里 声明 ， 这 些 头 文件 在 你 已 建立 和 配置 的 内 核 源 码 树 里 ; 大 部 分 相 
关 的 头 文件 位 于 include/linux 和 include/asm， 但 是 别 的 include 的 子 目 录 已 经 添加 
到 关联 特定 内 核子 系统 的 材料 里 了 . 
































单个 内 核 头 文件 的 作用 在 书 中 需要 它们 的 时 候 进 行 介绍 . 














另外 一 个 在 内 核 编 程 和 应 用 程序 编程 之 间 的 重要 不 同 是 每 一 个 环境 是 如 何 处 理 错误 : 在 应 
用 程序 开发 中 段 错误 是 无 害 的 ， 一 个 调试 器 常常 用 来 妃 踪 错误 到 源码 中 的 问题 ， 而 一 个 内 
核 错误 至 少 会 杀 邱 当前 进程 ， 如 果 不 终止 整个 系统 ， 我 们 会 在 第 4 章 看 到 如 何 跟踪 内 核 错 


Y. 


2. 3. 1 用户 空间 和 内 核 空 间 











A module runs in kernel space, whereas applications run in user space. This concept is at 
the base of operating systems theory. 
一 个 模块 在 内 核 空间 运行 ， 而 应 用 程序 在 用 户 空间 运行 ， 这 个 概念 是 操作 系统 理论 的 基础 . 

















操作 系统 的 角色 ， 实 际 上 ， 是 给 程序 提供 一 个 一 致 的 计算 机 硬件 的 视角 另外， 操作 系统 
必须 承担 程序 的 独立 操作 和 保护 对 于 非 授权 的 资源 存 取 ， 这 一 不 平凡 的 任务 只 有 CPU 增强 
系统 软件 对 应 用 程序 的 保护 才 有 可 能 . 














每 种 现代 处 理 器 都 能 够 加 强 这 种 行为 ， 选 中 的 方法 是 CPU 自己 实现 不 同 的 操作 形态 (或 者 

级 别 )， 这 些 级 别 有 不 同 的 角色 ， 一 些 操作 在 低 些 级 别 中 不 允许 ; 程序 代码 只 能 通过 有 限 的 
几 个 门 从 一 种 级 别 切换 到 另 一 个 ，Unix 系统 设计 成 利用 了 这 种 硬件 特性 ， 使 用 了 两 个 这 样 
的 级 别 ， 所 有 当今 的 处 理 器 全 少 有 两 个 保护 级 别 ， 并 且 某 些 ， 例 如 x86 家 族 ， 有 更 多 级 别 ; 
当 几 个 级 别 存在 时 ， 使 用 最 高 和 最 低级 别 . 在 Unix 下 ， 内 核 在 最 高 级 运行 ( 也 称 之 为 超 

级 模式 )， 这 里 任何 事情 都 允许 ， 而 应 用 程序 在 最 低级 运行 (所 谓 的 用 户 模式 )， 这 里 处 理 
器 控制 了 对 硬件 的 直接 存 取 以 及 对 内 存 的 非法 存 取 . 
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我 们 常常 提 到 运行 模式 作为 内 核 空间 和 用 户 空 间 ， 这 些 术语 不 仅 包含 存在 于 这 两 个 模式 中 
不 同 特权 级 别 ， 还 包含 有 这 样 的 事实 ， 即 每 个 模式 有 它 自 己 的 内 存 映 射 一 它 自己 的 地 址 


空间 . 














Unix 从 用 户 空 间 转 换 执行 到 内 核 空间 ， 无 论 何 时 一 个 应 用 程序 发 出 一 个 系统 调用 或 者 被 便 
件 中 断 挂 起 时 ， 执 行 系统 调用 的 内 核 代 码 在 进程 的 上 下 文中 工作 一 它 代 表 调 用 进程 并 且 
可 以 存 取 该 进程 的 地 址 空间 ， 换 名 话说 ， 处 理 中 断 的 代码 对 进程 来 说 是 异步 的 ， 不 和 任何 
特别 的 进程 有 关 . 








模块 的 角色 是 扩展 内 核 的 功能 ; 模块 化 的 代码 在 内 核 空 间 运 行 ， 经 常 地 一 个 驱动 进行 之 前 
提 到 的 两 种 任务 : 模块 中 一 些 的 函数 作为 系统 调用 的 一 部 分 执行 ， 一 些 负 责 中 断 处 理 . 


2. 3. 2， 内 核 的 并 发 


内 核 编程 与 传统 应 用 程序 编程 方式 很 大 不 同 的 是 并 发 问题 ， 大 部 分 应 用 程序 ， 多 线程 的 应 
用 程序 是 一 个 明显 的 例外 ， 典 型 地 是 顺序 运行 的 ， 从 头 至 尾 ， 不 必要 担心 其 他 事情 会 发 生 
而 改变 它们 的 环境 ， 内 核 代 码 没 有 运行 在 这 样 的 简单 世界 中 ， 即 便 最 简单 的 内 核 模 块 必须 
在 这 样 的 概念 下 编写 ， 很 多 事情 可 能 马上 发 生 . 



































内 核 编程 中 有 几 个 并 发 的 来 源 ， 自然 的 ，Linux 系统 运行 多 个 进程 ， 在 同一 时 间 ， 不 止 一 
个 进程 能 够 试图 使 用 你 的 驱动 ， 大 部 分 设备 能 够 中 断 处 理 器 ; 中 断 处 理 异 步 运行 ， 并 且 可 
能 在 你 的 驱动 试图 做 其 他 事情 的 同一 时 间 被 调用 ， 儿 个 软件 抽象 ( 例如 内 核定 时 器 ， 第 7 
章 介绍 ) 也 异步 运行 ， 而 且 ， 当 然 ，Linux 可 以 在 对 称 多 处 理 器 系统 ( SMP ) 上 运行 ， 结 果 
是 你 的 驱动 可 能 在 多 个 CPU 上 并 发 执行 ， 最后， 在 2. 6， 内 核 代码 已 经 是 可 抢占 的 了 ; 这 
个 变化 使 得 即便 是 单 处 理 器 会 有 许多 与 多 处 理 器 系统 同样 的 并 发 问题 . 









































ZUR, Linux 内 核 代码 ， 包 括 驱 动 代码 ， 必 须 是 可 重 入 的 一 它 必 须 能 够 同时 在 多 个 上 下 
文中 运行 ， 数 据 结 构 必 须 小 心 设计 以 保持 多 个 执行 线程 分 开 ， 并 且 代 码 必 须 小 心 存 取 共享 
数据 ， 避 免 数 据 的 破坏 ， 编 写 处 理 并 发 和 避免 竞争 情况 ( 一 个 不 幸 的 执行 顺序 时 致 不 希望 
的 行为 的 情形 ) 的 代码 需要 仔细 考虑 并 可 能 是 微妙 的 正确 的 并 发 管理 在 编写 正确 的 内 核 
代码 时 是 必须 的 ; 由 于 这 个 理由 ， 本 书 的 每 一 个 例子 驱动 都 是 考虑 了 并 发 下 编写 的 ， 用 到 
的 技术 在 我 们 遇 到 它们 时 再 讲解 ; 第 5 章 也 专门 讲述 这 个 问题 ， 以 及 并 发 管理 的 可 用 的 内 
核 原 语 . 







































































驱动 程序 员 的 一 个 通常 的 错误 是 假定 并 发 不 是 一 个 问题 ， 只 要 一 段 特别 的 代码 没有 进入 睡 
HEC 或 者 “阻塞 ”).， 即便 在 之 前 的 内 核 ( 不 可 抢占 )， 这 种 假设 在 多 处 理 器 系统 中 也 不 成 
W. 在 2.6， 内 核 代码 不 能 ( 极 少 ) 假 定 它 能 在 一 段 给 定 代码 上 持 有 处 理 器 ， 如 果 你 不 考虑 
并 发 来 编写 你 的 代码 ， 就 极 有 可 能 导致 严重 失效 ， 以 至 于 非常 难于 调试 . 


2. 3. 3， 当 前 进程 


尽管 内 核 模块 不 象 应 用 程序 一 样 顺序 执行 ， 内 核 做 的 大 部 分 动作 是 代表 一 个 特定 进程 的 . 

内 核 代 码 可 以 引用 当前 进程 ， 通 过 存 取 全 局 项 current, "TE Xasm/current. h». PEX, 
它 产 生 一 个 指针 指向 结构 task struct, Æ Xlinux/sched.h? 4E X. current 指针 指向 当 
前 在 运行 的 进程 .在 一 个 系统 调用 执行 期 间 ， 例 如 open 或 者 read， 当 前 进程 是 发 出 调用 
的 进程 ， 内核 代码 可 以 通过 使 用 current 来 使 用 进程 特定 的 信息 ， 如 果 它 需要 这 样 . 这 种 
技术 的 一 个 例子 在 第 6 章 展 示 . 
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SE E, current 不 真正 地 是 一 个 全 局 变量 .支持 SMP 系统 的 需要 强迫 内 核 开发 者 去 开发 
一 种 机 制 ， 在 相关 的 CPU 上 来 找到 当前 进程 . 这 种 机 制 也 必须 快速 ， 因 为 对 current 的 
引用 非常 频繁 地 发 生 ， 结 果 就 是 一 个 依赖 体系 的 机 制 ， 常 常 ， 隐 藏 了 一 个 指向 

task struct 的 指针 在 内 核 堆 栈 内 ， 实 现 的 细节 对 别 的 内 核子 系统 保持 隐藏 ， 一 个 设备 驱 
动 可 以 只 包含 《linux/sched. b 并 且 引 用 当前 进程 例如， 下 面 的 语句 打印 了 当前 进程 的 
进程 ID 和 命令 名 称 ， 通 过 存 取 结构 task struct 中 的 某 些 字段 . 
































printk(KERN INFO “The process is \'%s\ (pid %i)\n”, current->comm, current->pid); 


存 于 current-^comm 的 命令 名 称 是 由 当前 进程 执行 的 程序 文件 的 基本 名 称 ( EUSEB] 15 个 
字符 ， 如 果 需 要 ). 


2. 3. 4， 几 个 别 的 细节 
内 核 编程 与 用 户 空 间 编 程 在 许多 方面 不 同 ， 我 们 将 在 本 书 的 过 程 中 指出 它们 ， 但 是 有 几 个 


基础 性 的 问题 ， 尽 管 没 有 保证 它们 自己 有 一 节 内 容 ， 也 值得 一 所， 因此 ， 当 你 深入 内 核 时 ， 
下 面 的 事项 应 当 牢 记 ， 




















应 用 程序 存在 于 虚拟 内 存 中 ， 有 一 个 非常 大 的 堆栈 区 堆栈， 当然 ， 是 用 来 保存 函数 调用 
历史 以 及 所 有 的 由 当前 活跃 的 函数 创建 的 上 自动 变量 内核， 相反 ， 有 一 个 非常 小 的 堆栈 ; 

它 可 能 小 到 一 个 ，4096 字 贡 的 页 ， 你 的 函数 必须 与 这 个 内 核 空 间 调用 链 共 享 这 个 堆栈 ， 因 
此 ， 声 明 一 个 巨大 的 自动 变量 从 来 就 不 是 一 个 好 主意 ; 如 果 你 需要 大 的 结构 ， 你 应 当 在 调 
用 时 间 内 动态 分 配 . 




































































常常 ， 当 你 查看 内 核 API 时 ， 你 会 遇 到 以 双 下 划 线 4 ) 开始 的 函数 名 . 这样 标志 的 函数 名 
通常 是 一 个 低层 的 接口 组 件 ， 应 当 小 心 使 用 ， 本 质 上 讲 ， 双 下 划 线 告诉 程序 员 :” 如 果 你 调 
用 这 个 函数 ， 确 信 你 知道 你 在 做 什么 .“ 


























内 核 代 码 不 能 做 浮 点 算术 ， 使 能 浮 点 将 要 求 内 核 在 每 次 进出 内 核 空间 的 时 候 保存 和 恢复 浮 
点 处 理 器 的 状态 -- 至 少 ， 在 某 些 体系 上 ， 在 这 种 情况 下 ， 内 核 代 码 真 的 没有 必要 包含 浮 
点 ， 额 外 的 负担 不 值得 . 


2. 4， 编 译 和 加 载 


本 章 开 头 的 “hello worl1d” 例 子 包 含 了 一 个 简短 的 建立 并 加 载 模块 到 系统 中 去 的 演示 ， 当 
然 ， 整 个 过 程 比 我 们 目前 看 到 的 多 .本 节 提 供 了 更 多 细节 关于 一 个 模块 作者 如 何 将 源码 转 
换 成 内 核 中 的 运行 的 子 系 统 . 


2. 4. 1 编译 模块 


第 一 步 ， 我 们 需要 看 一 下 模块 如 何必 须 被 建立 ， 模 块 的 建立 过 程 与 用 户 空间 的 应 用 程序 的 
建立 过 程 有 显著 不 同 ; 内核 是 一 个 大 的 ， 独 立 的 程序 ， 对 于 它 的 各 个 部 分 如 何 组 合 在 一 起 
有 详细 的 明确 的 要 求 ， 建立 过 程 也 与 以 前 版 本 的 内 核 的 过 程 不 同 ; 新 的 建立 系统 用 起 来 更 
简单 并 且 产 生 更 正确 的 结果 ， 但 是 它 看 起 来 与 以 前 非常 不 同 ， 内 核 建立 系统 是 一 头 负责 的 
野兽 ， 我 们 就 看 它 一 小 部 分 ， 在 内 核 源码 的 Document/kbuild 目录 下 发 现 的 文件 ， 任 何 想 
理解 表面 之 下 的 真实 情况 的 人 都 要 阅读 一 下 . 
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模块 工具 ， 以 及 其 他 必要 工具 . 在 内 核 文 档 目录 下 的 文件 Documentation/Changes 一 直列 
出 了 需要 的 工具 版 本 ; 你 应 当 在 向 前 走 之 前 参考 一 下 它 ， 试图 建立 一 个 内 核 ( 包 括 它 的 模 
块 )， 用 错误 的 工具 版 本 ， 可 能 导致 不 尽 的 奇怪 的 难题 ， 注 意 ， 侦 尔 地 ， 编 译 器 的 版 本 太 新 
可 能 会 引起 和 太 老 的 版 本 引起 的 一 样 的 问题 ， 内 核 源 码 对 于 编译 器 做 了 很 大 的 假设 ， 新 的 
发 行 版 本 有 时 会 一 时 地 破坏 东西 . 






































如 果 你 仍然 没有 一 个 内 核 树 在 手边 ， 或 者 还 没有 配置 和 建立 内 核 ， 现 在 是 时 间 去 做 了 . x 
有 源码 树 在 你 的 文件 系统 上 ， 你 无 法 为 2.6 内 核 建 立 可 加 载 的 模块 ， 实际 运 行为 其 而 建立 
的 内 核 也 是 有 帮助 的 ( 尽管 不 是 必要 的 ). 























一 旦 你 已 建立 起 所 有 东西 ， 给 你 的 模块 创建 一 个 makefile 就 是 直截了当 的 .实际 上 ， 对 
于 本 章 前 面 展示 的 ”hello world” 例 子 ， 单 行 就 够 了 : 








obj-m := hello.o 





熟悉 make ， 但 是 对 2.6 内 核 建立 系统 不 熟悉 的 读者 ， 可 能 奇怪 这 个 makefile 如 何 工作 . 
毕竟 上 面 的 这 一 行 不 是 一 个 传统 的 makefile 的 样子 ， 答 案 ， 当 然 ， 是 内 核 建 立 系统 处 理 
了 余下 的 工作 . 上面 的 安排 ( 它 利用 了 由 GNU make 提供 的 扩展 语法 ) 表 明 有 一 个 模块 要 
从 目标 文件 hello.o 建立 ， 在 从 目标 文件 建立 后 结果 模块 命名 为 hello. ko. 




















有 反之， 如 果 你 有 一 个 模块 名 为 module. ko， 是 来 自 2 个 源 文件 ( Ah HERZ, filel.c 和 
file2.c )， 正 确 的 书写 应 当 是 : 


obj-m := module. o 
module-objs :- filel.o file2.0 








对 于 一 个 象 上 面 展 示 的 要 工作 的 makefile， 它 必须 在 更 大 的 内 核 建 立 系统 的 上 下 文 被 调用 . 
如 果 你 的 内 核 源码 数位 于 ， 假 设 ， 你 的 “/kernel-2.6 目录 ， 用 来 建立 你 的 模块 的 make 
命令 ( 在 包含 模块 源码 和 makefile 的 目录 下 键入 ) 会 是 : 





make -C "/kernel-2.6 M= pwd modules 


这 个 命令 开始 是 改变 它 的 目录 到 用 -C 选项 提供 的 目录 下 ( 就 是 说 ， 你 的 内 核 源码 目录 ). 
它 在 那里 会 发 现 内 核 的 顶层 makefile. 这 个 M 选项 使 makefile 在 试图 建立 模块 目标 前 ， 
回 到 你 的 模块 源码 目录 . 这 个 目标 ， 依 次 地 ， 是 指 在 obj-m 变量 中 发 现 的 模块 列表 ， 在 我 
们 的 例子 里 设 成 了 module. o. 








键入 前 面 的 make 命令 一 会 儿 之 后 就 会 感觉 烦 ， 所 以 内 核 开发 者 就 开发 了 一 种 makefile 
方式 ， 使 得 生活 容易 些 对 于 那些 在 内 核 树 之 外 建立 模块 的 人 ， 这 个 窍门 是 如 下 书写 你 的 


makefile: 














# If KERNELRELEASE is defined, we've been invoked from the 
8 kernel build system and can use its language 
ifneq ($ (KERNELRELEASE) , ) 


obj-m := hello.o 


# Otherwise we were called directly from the command 
# line; invoke the kernel build system. 
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else 


KERNELDIR ?= /lib/modules/$(shell uname -r)/build 
PWD := $(shell pwd) 
default: 

$ (MAKE) -C $(KERNELDIR) M=$ (PWD) modules 


endif 








再 一 次 ， 我 们 看 到 了 扩展 的 GNU make 语法 在 起 作用 .这 个 makefile 在 一 次 典型 的 建立 
中 要 被 读 2 次 ， 当 从 命令 行 中 调用 这 个 makefile ， 它 注意 到 KERNELRELEASE 变量 没有 
设置 ， 它 利用 这 样 一 个 事实 来 定位 内 核 源 码 目录 ， 即 已 安装 模块 目录 中 的 符号 连接 指 回 内 
核 建 立 树 . 如 果 你 实际 上 没有 运行 你 在 为 其 而 建立 的 内 核 ， 你 可 以 在 命令 行 提供 一 个 

KERNELDIR- 选项 ， 设 置 KERNELDIR 环境 变量 ， 或 者 重 写 makefile 中 设置 KERNELDIR 的 
那 一 行 ， 一 旦 发 现 内 核 源 码 树 ，makefile 调用 default: 目标 ， 来 运行 第 2 个 make 命 
令 ( 在 makefile 里 参数 化 成 $ (MAKB)) 象 前 面 描述 过 的 一 样 来 调用 内 核 建 立 系统 ， 在 第 2 
次 读 ，makefile 设置 obj-m， 并 且 内 核 的 makefile 文件 完成 实际 的 建立 模块 工作 . 






































这 种 建立 模块 的 机 制 你 可 能 感觉 笨拙 模糊 .一 旦 你 习惯 了 它 ， 但 是 ， 你 很 可 能 会 欣赏 这 种 
己 经 编排 进 内 核 建 立 系 统 的 能 力 ， 注 意 ， 上 和 面 的 不 是 一 个 完整 的 makefile; 一 个 真正 的 
makefile 包含 通常 的 目标 类 型 来 清除 不 要 的 文件 ， 安 装 模 块 等 等 ， 一 个 完整 的 例子 可 以 参 
考 例 子 代 码 目录 的 makefile. 


2. 4. 2， 加 载 和 钊 载 模块 


模块 建立 之 后 ， 下 一 步 是 加 载 到 内 核 ， 如 我 们 已 指出 的 ，insmod 为 你 完成 这 个 工作 ， 这 个 
程序 加 载 模块 的 代码 段 和 数据 段 到 内 核 ， 接 着 ， 执 行 一 个 类 似 1d 的 函数 ， 它 连接 模块 中 
任何 未 解决 的 符号 连接 到 内 核 的 符号 表 上 .但 是 不 象 连接 器 ， 内 核 不 修改 模块 的 磁盘 文件 ， 
而 是 内 存 内 的 找 贝 ，insmod 接收 许多 命令 行 选项 (详情 见 manpage)， 它 能 够 安排 值 给 你 模 
块 中 的 参数 ， 在 连接 到 当前 内 核 之 前 ， 因 此 ， 如 果 一 个 模块 正确 设计 了 ， 它 能 够 在 加 载 时 
配置 ;加载 时 配置 比 编译 时 配置 给 了 用 户 更 多 的 灵活 性 ， 有 时 仍然 在 用 ， 加 载 时 配置 在 本 
章 后 面 的 “模块 参数 ”一 节 讲 解 . 


































































































感 兴 趣 的 读者 可 能 想 看 看 内 核 如 何 文 持 insmod: 它 依 赖 一 个 在 kernel/module.c 中 定义 
的 系统 调用 .函数 sys init module 分 配 内 核 内 存 来 存放 模块 ( 这 个 内 存 用 vmalloc 分 
配 ; 看 第 8 章 的 “vmalloc 和 其 友 ”) ; 它 接着 拷贝 模块 的 代码 段 到 这 块 内 存 区 ， 借 助 内 
核 符号 表 解 决 模块 中 的 内 核 引 用 ， 并 且 调 用 模块 的 初始 化 函数 来 启动 所 有 东西 . 





























如 果 你 真正 看 了 内 核 代 码 ， 你 会 发 现 系 统 调用 的 名 子 以 sys. 为 前 级 ， 这 对 所 有 系统 调用 
都 是 成 立 的 ， 并 且 没 有 别 的 函数 ， 记 住 这 个 有 助 于 在 源码 中 查找 系统 调用 . 





modprobe 工具 值得 快速 提 及 一 下 .modprobe， 如 同 insmod， 加 载 一 个 模块 到 内 核 . 它 的 
不 同 在 于 它 会 查看 要 加 载 的 模块 ， 看 是 否 它 引用 了 当前 内 核 没 有 定义 的 符号 ， 如 果 发 现 有 ， 
modprobe 在 定义 相关 符号 的 当前 模块 搜索 路 径 中 寻找 其 他 模块 ， 当 modprobe 找到 这 些 模 
块 ( 要 加 载 模块 需要 的 )， 它 也 把 它们 加 载 到 内 核 . 如 果 你 在 这 种 情况 下 代替 以 使 用 
insmod ， 命 令 会 失败 ， 在 系统 日 志文 件 中 留 下 一 条 ”unresolved symbols “消息 . 
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如 前 面 提 到 ， 模 块 可 以 用 rmmod 工具 从 内 核 去 除 . 注意 ， 如 果 内 核 认 为 模块 还 在 用 ( 就 是 
说 ， 一 个 程序 仍然 有 一 个 打开 文件 对 应 模块 输出 的 设备 )， 或 者 内 核 被 配置 成 不 允许 模块 
去 除 ， 模 块 去 除 会 失败 .可 以 配置 内 核 允 许 ” 强 行 “ 去 除 模块 ， 甚 至 在 它们 看 来 是 忙 的 ， 如 
果 你 到 了 需要 这 选项 的 地 步 ， 但 是 ， 事 情 可 能 已 经 错 的 太 严重 以 至 于 最 好 的 动作 就 是 重启 
Js 
































lsmod 程序 生成 一 个 内 核 中 当前 加 载 的 模块 的 列表 一些 其 他 信息 ， 例 如 使 用 了 一 个 特定 
模块 的 其 他 模块 ， 也 提供 了 .，1smod 通过 读 取 /proc/modules 虚拟 文件 工作 .当前 加 载 的 
模块 的 信息 也 可 在 位 于 /sys/module 的 sysfs 虚拟 文件 系统 找到 . 


2. 4. 3， 版 本 依赖 


记 住 ， 你 的 模块 代码 一 定 要 为 每 个 它 要 连接 的 内 核 版 本 重新 编译 -- 至 少 ， 在 缺乏 
modversions 时 ， 这 里 不 涉及 因为 它们 更 多 的 是 给 内 核发 布 制作 者 ， 而 不 是 开发 者 ， 模 块 
是 紧密 结合 到 一 个 特殊 内 核 版 本 的 数据 结构 和 函数 原型 上 的 ; 模块 见 到 的 接口 可 能 一 个 内 
核 版 本 与 另 一 个 有 很 大 差别 ， 当 然 ， 在 开发 中 的 内 核 更 加 是 这 样 . 
























































内 核 不 只 是 认为 一 个 给 定 模 块 是 针对 一 个 正确 的 内 核 版 本 建立 的 ， 建 立 过 程 的 其 中 一 步 是 
对 一 个 当前 内 核 树 中 的 文件 ( 称 为 vermagic. o) 连接 你 的 模块 ; 这 个 东 东 含有 相当 多 的 有 关 
要 为 其 建立 模块 的 内 核 的 信息 ， 包 括 目 标 内 核 版 本 ， 编 译 器 版 本 ， 以 及 许多 重要 配置 变量 
的 设置 ， 当 葡 试 加 载 一 个 模块 ， 这 些 信 息 被 检查 与 运行 内 核 的 兼容 性 ， 如 果 不 匹 配 ， 横 块 
不 会 加 载 ; 代 之 的 是 你 见 到 如 下 内 容 : 


















































# insmod hello. ko 
Error inserting './hello.ko': -1 Invalid module format 


看 一 下 系统 日 志文 件 (/var/log/message 或 者 任何 你 的 系统 被 配置 来 用 的 ) 将 发 现 导 致 模块 
无 法 加 载 特定 的 问题 . 




















如 果 你 需要 编译 一 个 模块 给 一 个 特定 的 内 核 版 本 ， 你 将 需要 使 用 这 个 特定 版 本 的 建 并 系统 
和 源码 树 . 前 面 展 示 过 的 在 例子 makefile 中 简单 修改 KERNELDIR 变量 ， 就 完成 这 个 动作 














内 核 接 口 在 各 个 发 行 之 间 常 常 变化 ， 如 果 你 编写 一 个 模块 想 用 来 在 多 个 内 核 版 本 上 工作 ( 特 
别 地 是 如 果 它 必须 跨 大 的 发 行 版 本 )， 你 可 能 只 能 使 用 宏 定 义 和 Sifdef 来 使 你 的 代码 正确 
建立 ， 本 书 的 这 个 版 本 只 关心 内 核 的 一 个 主要 版 本 ， 因 此 不 会 在 我 们 的 例子 代码 中 经 常见 
到 版 本 检查 .但 是 这 种 需要 确实 有 时 会 有 .， 在 这 样 情况 下 ， 你 要 利用 在 linux/version.h 
中 发 现 的 定义 ， 这 个 头 文件 ， 自 动 包含 在 linux/module.h， 定 义 了 下 面 的 宏 定 义 : 


















































UTS RELEASE 





这 个 宏 定 义 扩 展 成 字符 串 ， 描 述 了 这 个 内 核 树 的 版 本 ， 例 如 ，“2. 6. 10 





LINUX VERSION CODE 
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这 个 安定 义 扩 展 成 内 核 版 本 的 二 进 制 形式 ， 版 本 号 发 行 号 的 每 个 部 分 用 一 个 字 节 表 
示 . 例如 ，2. 6. 10 的 编码 是 132618 ( 就 是 ，0x02060a ). “有 了 这 个 信息 ， 你 可 
以 (几乎 是 ) 容易 地 决定 你 在 处 理 的 内 核 版 本 . 

















KERNEL VERSION (major, minor, release) 











这 个 宏 定义 用 来 建立 一 个 整 型 版 本 编码 ， 从 组 成 一 个 版 本 号 的 单个 数字 ， 例 如， 
KERNEL VERSION(2.6.10) 扩展 成 132618， 这 个 宕 定义 非常 有 用 ， 当 你 需要 比较 当 
前 版 本 和 一 个 已 知 的 检查 点 . 























大 部 分 的 基于 内 核 版 本 的 依赖 性 可 以 使 用 预 处 理 器 条 件 解决 ， 通 过 利用 KERNEL VERSION 

和 LINUX VERSION VODE. 版 本 依赖 不 应 当 ， 但 是 ， 用 繁多 的 #ifdef 条 件 来 搞 乱 驱动 的 代 
13: 处 理 不 兼容 的 最 好 的 方式 是 把 它们 限制 到 特定 的 头 文件 ， 作 为 一 个 通用 的 原则 ， 明 显 
版 本 (或 者 平台 ) 依赖 的 代码 应 当 隐 藏 在 一 个 低级 的 安定 义 或 者 函数 后 面 ， 高 层 的 代码 就 可 
以 只 调用 这 些 函 数 ， 而 不 必 关 心 低层 的 细节 . 这样 书写 的 代码 易 读 并 且 更 健壮 . 


2. 4. 4， 平 台 依赖 性 
每 个 电脑 平台 有 其 自己 的 特点 ， 内 核 设计 者 可 以 自由 使 用 所 有 的 特性 来 获得 更 好 的 性 能 . 


in the target object file ??? 


























不 象 应 用 程序 开发 者 ， 他 们 必须 和 预 编译 的 库 一 起 连接 他 们 的 代码 ， 依 附 在 参数 传递 的 规 
定 上 ， 内 核 开发 者 可 以 专用 某 些 处 理 器 寄存 器 给 特别 的 用 途 ， 他 们 确实 这 样 做 了 .更 多 的 ， 
内 核 代码 可 以 为 一 个 CPU 族 里 的 特定 处 理 器 优化 ， 以 最 好 地 利用 目标 平台 ; 不 象 应 用 程序 
那样 第 常 以 二 进 制 格式 发 布 ， 一 个 定制 的 内 核 编译 可 以 为 一 个 特定 的 计算 机 系列 优化 . 









































例如 ，IA32 (x86) 结构 分 为 几 个 不 同 的 处 理 器 类 型 . 老式 的 80386 处 理 器 仍然 被 支持 
( 到 现在 )， 尽 管 它 的 指令 集 ， 以 现代 的 标准 看 ， 非 常 有 限 ， 这 个 体系 中 更 加 现代 的 处 理 
器 已 经 引入 了 许多 新 特性 ， 包 括 进 入 内 核 的 快速 指令 ， 处 理 器 间 的 加 锁 ， 拷 贝 数 据 ， 等 等 . 
更 新 的 处 理 器 也 可 采用 36 位 ( 或 者 更 大 ) 的 物理 地 址 ， 当 在 适当 的 模式 下 ， 以 允许 他 们 
寻 址 超过 4 cB 的 物理 内 存 ， 其 他 的 处 理 器 家 族 也 有 类 似 的 改进 内核， 依赖 不 同 的 配置 
选项 ， 可 以 被 建立 来 使 用 这 些 附加 的 特性 . 




































































清楚 地 ， 如 果 一 个 模块 与 一 个 给 定 内 核 工作 ， 它 必须 以 与 内 核 相同 的 对 目标 处 理 器 的 理解 
来 建立 ， 再 一 次 ，vermagic.o 目标 文件 登场 ， 当 加 载 一 个 模块 ， 内 核 为 模块 检查 特定 处 理 
器 的 配置 选项 ， 确 认 它 们 匹配 运行 的 内 核 ， 如 果 模 块 用 不 同 选 项 编译 ， 它 不 会 加 载 . 









































如 果 你 计划 为 通用 的 发 布 编写 驱动 ， 你 可 能 很 奇怪 你 怎么 可 能 支持 所 有 这 些 不 同 的 变 体 . 

最 好 的 答案 ， 当 然 ， 是 发 行 你 的 驱动 在 GPL 兼容 的 许可 之 下 ， 并 且 贡 献 它 给 主流 内 核 ， 如 
果 没 有 那样 ， 以 源码 形式 和 一 套 脚 本 发 布 你 的 驱动 ， 以 便 在 用 户 系统 上 编译 可 能 是 最 好 的 
答案 ， 一些 供 应 商 已 发 行 了 工具 来 简化 这 个 工作 ， 如 果 你 必须 发 布 你 的 驱动 以 二 进 制 形式 ， 
你 需要 查看 由 你 的 目标 发 布 所 提供 的 不 同 的 内 核 ， 并 且 为 每 个 提供 一 个 模块 版 本 ， 要 确认 
考虑 到 了 任何 在 产生 发 布 后 可 能 发 行 的 勘误 内 核 ， 接 着， 要 考虑 许可 权 的 问题 ， 如 同 我 们 












































4 


A 这 允许 在 稳定 版 本 之 间 多 达 256 个 开发 版 本 . 
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在 第 1 章 的 ”许可 条 款 ” 一 节 中 讨论 的 ， 作 为 一 个 通用 的 规则 ， 以 源码 形式 发 布 东 西 是 你 
行 于 世 的 易 途 . 


2. 5， 内 核 符号 表 


我 们 已 经 看 到 insmod 如 何 对 应 共用 的 内 核 符号 来 解决 未 定义 的 符号 ， 表 中 包含 了 全 局 内 
核 项 的 地 址 -- 函数 和 变量 一 需要 来 完成 模块 化 的 驱动 ， 当 加 载 一 个 模块 ， 如 何 由 模块 
输出 的 符号 成 为 内 核 符号 表 的 一 部 分 ， 通 常情 况 下 ， 一 个 模块 完成 它 目 己 的 功能 不 需要 输 
出 如 何 符号 ， 你 需要 输出 符号， 但 是 ， 在 任何 别 的 模块 能 得 益 于 使 用 它们 的 时 候 . 


























新 的 模块 可 以 用 你 的 模块 输出 的 符号 ， 你 可 以 堆 和 新 的 模块 在 其 他 模块 之 上 .模块 堆 革 在 
主流 内 核 源 码 中 也 实现 了 : msdos 文件 系统 依赖 fat 模块 输出 的 符号 ， 某 一 个 输入 USB 
RARES usbcore 和 输入 模块 之 上. 











模块 堆 钱 在 复杂 的 工程 中 有 用 处 ， 如 果 一 个 新 的 抽象 以 驱动 程序 的 形式 实现 ， 它 可 能 提供 
一 个 特定 硬件 实现 的 搬入 点 .例如 ，video-for-linux 系列 驱动 分 成 一 个 通用 模块 ， 输 出 
了 由 特定 硬件 的 低层 设备 驱动 使 用 的 符号 ， 根 据 你 的 设置 ， 你 加 载 通用 的 视频 模块 和 你 的 
已 安装 人 硬件 对 应 的 特定 模块 . 对 并 口 的 文 持 和 众多 可 连接 设备 以 同样 的 方式 处 理 ， 如 同 
USB 内 核子 系统 ， 在 并 口子 系统 的 堆 半 在 图 ORIRE 中 显示 ; 箭头 显示 了 模 
块 和 内 核 编 程 接口 间 的 通讯 . 














图 2.2. 并 口 驱 动 模块 的 堆 赫 












Low-level SC NI RS 
device. i | 
Port sharing operations : Kernel API 
and device D7 ^ i 
istrati | : (Message | 
registration | parport printing, driver 
FRR ; i registration, 
Í | port allocation, 


: etc) 








KERER, A modprobe 工具 是 有 帮助 的 ， 如 我 们 前 面 讲 的 ，modprobe 函数 
很 多 地 方 与 insmod 相同 ， 但 是 它 也 加 载 任何 你 要 加 载 的 模块 需要 的 其 他 模块 ， 所 以 ， 一 
个 modprobe 命令 有 时 可 能 代替 几 次 使 用 insmod( 尽管 你 从 当前 目录 下 加 载 你 自己 模块 仍 
将 需要 insmod, KĄ modprobe 只 查找 标准 的 已 安装 模块 目录 ). 




















使 用 堆 车 来 划分 模块 成 不 同 层 ， 这 有 助 于 通过 简化 每 一 层 来 缩短 开发 时 间 . 这 同 我 们 在 第 
1 章 讨 论 的 区 分 机 制 和 人 策略 是 类 似 的 . 








linux 内 核 头 文件 提供 了 方便 来 管理 你 的 符号 的 可 见 性 ， 因 此 减少 了 命名 空间 的 污染 ( 将 
与 在 内 核 别处 已 定义 的 符号 冲突 的 名 子 填 入 命名 空间 )， 并 促使 了 正确 的 信息 隐藏 .如 果 你 
的 模块 需要 输出 符号 给 其 他 模块 使 用 ， 应 当 使 用 下 面 的 宏 定义 : 























EXPORT SYMBOL (name) ; 
EXPORT SYMBOL GPL (name) ; 
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上 上 面 宏 定义 的 任 一 个 使 得 给 定 的 符号 在 模块 外 可 用 . _GPL 版 本 的 宏 定 义 只 能 使 符号 对 GPL 
许可 的 模块 可 用 .符号 必须 在 模块 文件 的 全 局 部 分 输出 ， 在 任何 函数 之 外 ， 因 为 宏 定 义 扩 
展 成 一 个 特殊 用 途 的 并 被 期 望 是 全 局 存 取 的 变量 的 声明 ， 这 个 变量 存储 于 模块 的 一 个 特殊 
的 可 执行 部 分 ( 一 个 “ELF 段 ”)， 内 核 用 这 个 部 分 在 加 载 时 找到 模块 输出 的 变量 . 〈 感 兴 
趣 的 读者 可 以 看 《linux/module. b> 获知 详情 ， 尽 管 并 不 需要 这 些 细节 使 东西 动 起 来 ，) 


2. 6 预备 知识 


我 们 正在 接近 去 看 一 些 实际 的 模块 代码 .但 是 首先 ， 我 们 需要 看 一 些 需要 出 现在 你 的 模块 
源码 文件 中 的 东西 ， 内 核 是 一 个 独特 的 环境 ， 它 将 它 的 要 求 强 加 于 要 和 它 接口 的 代码 上 . 



























































大 部 分 内 核 代码 包含 了 许多 数量 的 头 文件 来 获得 函数 ， 数 据 结构 和 变量 的 定义 ， 我 们 将 在 
磁 到 它们 时 检查 这 些 文件 ， 但 是 有 几 个 文件 对 模块 是 特殊 的 ， 必 须 出 现在 每 一 个 可 加 载 模 
块 中 ， 因 此 ， 几 乎 所 有 模块 代码 都 有 下 面 内 容 : 





#include <linux/module. h> 
#include <linux/init. h> 








moudle.h 包含 了 大 量 加 载 模块 需要 的 函数 和 符号 的 定义 ， 你 需要 init.h 来 指定 你 的 初始 
化 和 清理 函数 ， 如 我 们 在 上 面 的 “hello world”″” 例 子 里 见 到 的 ， 这 个 我 们 在 下 一 节 中 再 讲 . 
大 部 分 模块 还 包含 moudleparam. h， 使 得 可 以 在 模块 加 载 时 传递 参数 给 模块 .我 们 将 很 快 
38 8. 
































不 是 严格 要 求 的 ， 但 是 你 的 模块 确实 应 当 指定 它 的 代码 使 用 哪个 许可 ， 做 到 这 一 点 只 需 包 
含 一 行 MODULE LICENSE: 











MODULE LICENSE (“GPL”); 


内 核 认 识 的 特定 许可 有 ， "GPL^(C 适用 GNU 通用 公共 许可 的 任何 版 本 )， “GPL v2^( 只 适 
用 GPL 版 本 2), "GPL and additional rights”, “Dual BSD/GPL^, “Dual MPL/GPL^, 

JI "Proprietary^. 除非 你 的 模块 明确 标识 是 在 内 核 认识 的 一 个 自由 许可 下 ， 否 则 就 假定 
它 是 私有 的 ， 内 核 在 模块 加 载 时 被 “型 污 浊 “ 了. 象 我 们 在 第 1 章 “ 许 可 条 款 “ 中 提 到 的 ， 内 
核 开发 者 不 会 热心 帮助 在 加 载 了 私有 模块 后 过 到 问题 的 用 户 . 


























可 以 在 模块 中 包含 的 其 他 描述 性 定义 有 MODULE AUTHOR ( 声明 谁 编写 了 模块 )， 

MODULE DESCRIPION( 一 个 人 可 读 的 关于 模块 做 什么 的 声明 ), MODULE VERSION (一 个 代 
码 修订 版 本 号 ; 看 《linux/module. h> 的 注释 以 便 知道 创建 版 本 字 串 使 用 的 惯例 )， 
MODULE ALIAS ( 模块 为 人 所 知 的 男 一 个 名 子 )， 以 及 MODULE DEVICE TABLE ( 来 告知 用 
户 空间 ， 模 块 支持 那些 设备 ). 我们 会 讨论 MODULE ALIAS 在 第 11 章 以 及 

MUDULE DEVICE TABLE 在 第 12 章 . 














各 种 MODULE 声明 可 以 出 现在 你 的 源码 文件 的 任何 函数 之 外 的 地 方 ， 但 是 ， 一 个 内 核 代 码 
中 相对 近期 的 惯例 是 把 这 些 声 明 放 在 文件 末尾 . 


2.7. 初始 化 和 关 停 
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如 已 提 到 的 ， 模 块 初始 化 函数 注册 模块 提供 的 任何 功能 ， 这些 功能 ， 我 们 指 的 是 新 功能 ， 
可 以 由 应 用 程序 存 取 的 或 者 一 整个 驱动 或 者 一 个 新 软件 抽象 .实际 的 初始 化 函数 定义 常常 
如 : 














static int _ init initialization function(void) 
{ 

/ Initialization code here */ 

} 


module init(initialization function); 


初始 化 函数 应 当 声 明成 静态 的 ， 因 为 它们 不 会 在 特定 文件 之 外 可 见 ; 没有 硬性 规定 这 个 ， 

然而 ， 因 为 没有 函数 能 输出 给 内 核 其 他 部 分 ， 除 非 明 确 请 求 ， 声明 中 的 _ init 标志 可 能 
看 起 来 有 点 怪 ; 它 是 一 个 给 内 核 的 上 暗示， 给 定 的 函数 只 是 在 初始 化 使 用 .模块 加 载 者 在 模 
块 加 载 后 会 丢掉 这 个 初始 化 函数 ， 使 它 的 内 存 可 做 其 他 用 途 . 一 个 类 似 的 标签 

( initdata) 给 只 在 初始 化 时 用 的 数据 .使 用 _ init 和 _initdata 是 可 选 的 ， 但 是 它 
带 来 的 麻烦 是 值得 的 ， 只 是 要 确认 不 要 用 在 那些 在 初始 化 完成 后 还 使 用 的 函数 (或 者 数据 结 
构 ) 上 ， 你 可 能 还 会 遇 到 — devinit 和 devinitdata 在 内 核 源 码 里 ; 这 些 只 在 内 核 没 有 
配置 支持 hotplug 设备 时 转换 成 _ init 和 _initdata. 我 们 会 在 14 章 谈 论 hotplug 

支持 . 






























































使 用 moudle_init 是 强制 的 .这 个 宏 定 义 增加 了 特别 的 段 到 模块 目标 代码 中 ， 表 明 在 哪里 
找到 模块 的 初始 化 函数 .没有 这 个 定义 ， 你 的 初始 化 函数 不 会 被 调用 . 








模块 可 以 注册 许多 的 不 同 设施 ， 包 括 不 同类 型 的 设备 ， 文 件 系统 ， 加 密 转 换 ， 以 及 更 多 . 
对 每 一 个 设施 ， 有 一 个 特定 的 内 核 函数 来 完成 这 个 注册 ， 传 给 内 核 注册 函数 的 参数 常常 是 
一 些 数 据 结 构 的 指针 ， 描 述 新 设施 以 及 要 注册 的 新 设施 的 名 子 . 数据 结构 常常 包含 模块 函 
数 指针 ， 模 块 中 的 函数 就 是 这 样 被 调用 的 . 


能 够 注册 的 项 目 远 远 超出 第 1 章 中 提 到 的 设备 类 型 列表 它们 包括 ， 其 他 的 ， 串 口 ， 多 样 
设备 ，sysfs AH, /proc 文件 ， 执 行 域 ， 链 路 规程 .这些 可 注册 项 的 大 部 分 都 支持 不 直 
接 和 硬件 相关 的 函数 ， 但 是 处 于 "软件 抽象 “区 域 里 .这 些 项 可 以 注册 ， 是 因为 它们 以 各 种 
方式 (例如 象 /proc 文件 和 链 路 规程 ) 集 成 在 驱动 的 功能 中 . 























对 某 些 驱 动 有 其 他 的 设施 可 以 注册 作为 补充 ， 但 它们 的 使 用 太 特 别 ， 所 以 不 值得 讨论 它们 . 
它们 使 用 堆 又 技术 ， 在 "内核 符 号 表 ” 一 节 中 讲 过 .如 果 你 想 深入 探求 ， 你 可 以 在 内 核 源 码 
里 查找 EXPORT SYMBOL ， 找 到 由 不 同 驱 动 提供 的 入 口 点 ， 大 部 分 注册 函数 以 register. 
做 前 级 ， 因 此 找到 它们 的 另外 一 个 方法 是 在 内 核 源码 里 查找 register . 

















2.7.1. 清理 函数 


每 个 非 试 验 性 的 模块 也 要 求 有 一 个 清理 函数 ， 它 注销 接口 ， 在 模块 被 去 除 之 前 返回 所 有 资 
源 给 系统 ， 这 个 函数 定义 为 : 











static void exit cleanup function(void) 
{ 

/* Cleanup code here */ 

} 


module exit(cleanup function); 
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清理 函数 没有 返回 值 ， 因 此 它 被 声明 为 void. exit 修饰 符 标识 这 个 代码 是 只 用 于 模块 
卸载 ( 通过 使 编译 器 把 它 放 在 特殊 的 ELF EO. 如果 你 的 模块 直接 建立 在 内 核 里 ， 或 者 如 
果 你 的 内 核 配置 成 不 允许 模块 印 载 ， 标 识 为 exit 的 函数 被 简单 地 丢弃 . 因为 这 个 原因 ， 
一 个 标识 exit 的 函数 只 在 模块 卸载 或 者 系统 停止 时 调用 ; 任何 别 的 使 用 是 错 的 ， 再 一 
次 ，moudle_exit 声明 对 于 使 得 内 核能 够 找到 你 的 清理 函数 是 必要 的 . 






































如 果 你 的 模块 没有 定义 一 个 清理 函数 ， 内 核 不 会 允许 它 被 撮 载 . 
2. 7. 2， 初 始 化 中 的 错误 处 理 
你 必须 记 住 一 件 事 ， 在 注册 内 核 设施 时 ， 注 册 可 能 失败 . 即便 最 简单 的 动作 常常 需要 内 存 


分 配 ， 分 配 的 内 存 可 能 不 可 用 .因此 模块 代码 必须 一 直 检 查 返 回 值 ， 并 且 确 认 要 求 的 操作 
实际 上 已 经 成 功 . 
























































如 果 在 你 注册 工具 时 发 生 任何 错误 ， 首 先 第 一 的 事情 是 决定 模块 是 否 能 够 无 论 如 何 继续 初 
全 化 它 上 自己。 常常 ， 在 一 个 注册 失败 后 模块 可 以 继续 操作 ， 如 果 需 要 可 以 功能 降级 ， 在 任 
何 可 能 的 时 候 ， 你 的 模块 应 当 尽力 向 前 ， 并 提供 事情 失败 后 具备 的 能 

















如 果 证 实 你 的 模块 在 一 个 特别 类 型 的 失败 后 完全 不 能 加 载 ， 你 必须 取消 任何 在 失败 前 注册 
的 动作 .内 核 不 保留 已 经 注册 的 设施 的 每 模块 注册 ， 因 此 如 果 初 始 化 在 茶 个 点 失败 ， 模 块 
必须 能 自己 退回 所 有 东西 ， 如 果 你 无 法 注销 你 获取 的 东西 ， 内 核 就 被 置 于 一 个 不 稳定 状态 ; 
它 包含 了 不 存在 的 代码 的 内 部 指针 .这 种 情况 下 ， 经 常 地 ， 唯 一 的 方法 就 是 重启 系统 ， 在 
初始 化 错误 发 生 时 ， 你 确实 要 小 心地 将 事情 做 正确 . 


















































普 误 恢 复 有 时 用 goto 语句 处 理 是 最 好 的 .我 们 通常 不 愿 使 用 goto， 但 是 在 我 们 的 观念 里 ， 
这 是 一 个 它 有 用 的 地 方 ， 在 错误 情形 下 小 心 使 用 goto 可 以 去 掉 大 量 的 复杂 ， 过 度 对 齐 的 ， 
"HAE, BER. 因此， 在 内 核 里 ，goto 是 处 理 错 误 经 常用 到 ， 如 这 里 显示 的 . 























下 面 例子 代码 ( 使 用 设施 注册 和 注销 函数 ) 在 初始 化 在 任何 点 失败 时 做 得 正确 : 


int init my init function(void) 
{ 
int err; 
err = register this(ptrl, ^skull^); /* registration takes a pointer and a name */ 
if (err) 
goto fail this; 
err = register that(ptr2, ^skull^); 
if (err) 
goto fail that; 
err = register those(ptr3, "skull^); 


if (err) 
goto fail those; 
return 0; /* success */ 
fail those: 
unregister that(ptr2, ^skull^); 
fail that: 
unregister this(ptrl, ^skull^); 
fail this: 
return err; /* propagate the error */ 
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j 





这 段 代码 试图 注册 3 个 (虚构 的 ) 设施 .goto 语句 在 失败 情况 下 使 用 ， 在 事情 变 坏 之 前 只 
对 之 前 已 经 成 功 注册 的 设施 进行 注销 . 








男 一 个 选项 ， 不 需要 繁多 的 goto 语句 ， 是 跟踪 已 经 成 功 注册 的 ， 并 且 在 任何 出 错 情 况 下 
调用 你 的 模块 的 清理 函数 .清理 函数 只 回 卷 那些 已 经 成 功 完成 的 步骤， 然而 这 种 选择 ， 需 
要 更 多 代码 和 更 多 CPU 时 间 ， 因 此 在 快速 途径 下 ， 你 仍然 依赖 于 goto 作为 最 好 的 错误 恢 
复工 具 . 


























my init function 的 返回 值 ，err， 是 一 个 错误 码 . 在 Linux 内 核 里 ， 错 误 码 是 负数 ， 属 
于 定义 于 《1linux/errno.h> 的 集合 ， 如 果 你 需要 产生 你 自己 的 错误 码 代 替 你 从 其 他 函数 得 
到 的 返回 值 ， 你 应 当 包 含 《linux/errno. h> 以 便 使 用 符号 式 的 返回 值 ， 例 如 -ENODEV，- 
ENOMEM， 等 等 ， 返 回 适当 的 错误 码 总 是 一 个 好 做 法 ， 因 为 用 户 程序 能 够 把 它们 转变 为 有 意 
义 的 字 串 ， 使 用 perror 或 者 类 似 的 方法 . 





























显然 ， 模 块 清理 函数 必须 撤销 任何 由 初始 化 函数 进行 的 注册 ， 并 且 惯例 (但 常常 不 是 要 求 的 ) 
是 按照 注册 时 相反 的 顺序 注销 设施 . 











void exit my cleanup function(void) 
{ 

unregister those(ptr3, ^skull^); 
unregister that(ptr2, ^skull^); 
unregister this(ptrl, ^skull^); 
return; 


} 























如 果 你 的 初始 化 和 清理 比 处 理 几 项 复杂 ，goto 方法 可 能 变 得 难于 管理 ， 因 为 所 有 的 清理 代 
码 必 须 在 初始 化 函数 里 重复 ， 包 括 儿 个 混合 的 标号 ， 有 时 ， 因 此 ， 一 种 不 同 的 代码 排 布 证 
明 更 成 功 . 





























使 代码 重复 最 小 和 所 有 东西 流 线 化 ， 你 应 当做 的 是 无 论 何 时 发 生 错误 都 从 初始 化 里 调用 清 
理 函 数 ， 清 理 函 数 接着 必须 在 撤销 它 的 注册 前 检查 每 一 项 的 状态 ， 以 最 简单 的 形式 ， 代 码 
看 起 来 象 这 样 : 














struct something *iteml; 
struct somethingelse *item2; 
int stuff ok; 


void my cleanup(void) 
{ 
if (iteml) 
release thing(iteml); 
if (item2) 
release thing2(item2); 
if (stuff ok) 
unregister stuff (); 
return; 
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int init my init(void) 
{ 
int err = -ENOMEM ; 


iteml = allocate thing(arguments); 
item2 = allocate thing2(arguments2); 
if (litem2 || litem2) 

goto fail; 


err = register stuff(iteml, item2); 


if (lerr) 

stuff ok = 1; 
else 

goto fail; 


return 0; /* success */ 


fail: 
my cleanupO; 
return err; 


} 








如 这 段 代码 所 示 ， 你 也 许 需 要 ， 也 许 不 要 外 部 的 标志 来 标识 初始 化 步骤 的 成 功 ， 要 依赖 你 
调用 的 注册 /分 配 函 数 的 语义 ， 不 管 要 不 要 标志 ， 这 种 初始 化 会 变 得 包含 大 量 的 项 ， 常 常 比 
之 前 展示 的 技术 要 好 . 注意 ， 但 是 ， 清 理 函 数 当 由 非 退 出 代码 调用 时 不 能 标志 为 — exit, 
如 同 前 面 的 例子 . 


2. 7. 3， 模 块 加 载 竞 争 
到 目前 ， 我 们 的 讨论 已 来 到 一 个 模块 加 载 的 重要 方面 : 竞争 情况 .如 果 你 在 如 何 编写 你 的 


初始 化 函数 上 不 小 心 ， 你 可 能 造成 威胁 到 整个 系统 的 稳定 的 情形 ， 我 们 将 在 本 书 稍 后 讨论 
竞争 情况 ; 现在 ， 快 速 提 几 点 就 足够 了 : 















































首先 时 你 应 该 一 直 记 住 ， 内 核 的 茶 些 别 的 部 分 会 在 注册 完成 之 后 马上 使 用 任何 你 注册 的 设 
施 ， 这 是 完全 可 能 的 ， 换 句 话说， 内核 将 调用 进 你 的 模块 ， 在 你 的 初始 化 函数 仍然 在 运行 
时 ， 所 以 你 的 代码 必须 准备 好 被 调用 ， 一 旦 它 完成 了 它 的 第 一 个 注册 .不 要 注册 任何 设施 ， 
直到 所 有 的 需要 支持 那个 设施 的 你 的 内 部 初始 化 已 经 完成 . 











你 也 必须 考虑 到 如 果 你 的 初始 化 函数 决定 失败 会 发 生 什么 ， 但 是 内 核 的 一 部 分 已 经 在 使 用 
你 的 模块 已 注册 的 设施 .如果 这 种 情况 对 你 的 模块 是 可 能 的 ， 你 应 当 认真 考虑 根本 不 要 使 
初始 化 失败 ， 毕 竞 ， 模 块 已 清楚 地 成 功 输出 一 些 有 用 的 东西 ， 如 果 初 始 化 必须 失败 ， 必 须 
小 心地 处 理 任何 可 能 的 在 内 核 别处 发 生 的 操作 ， 直 到 这 些 操作 已 完成 . 


2. 8， 模 块 参数 


驱动 需要 知道 的 儿 个 参数 因 不 同 的 系统 而 不 同 。 从 使 用 的 设备 号 ( 如 我 们 在 下 一 章 见 到 的 ) 
到 驱动 应 当 任 何 操作 的 几 个 方面 ， 例 如 ，SCSI 适配器 的 驱动 常常 有 选项 控制 标记 命令 队列 
的 使 用 ，IDE 驱动 允许 用 户 控 制 DMA 操作 .如 果 你 的 驱动 控制 老 的 硬件 ， 还 需要 被 明确 告 
知 哪里 去 找 硬件 的 1/0 端口 或 者 I/0 内 存 地 址 ， 内 核 通过 在 加 载 驱 动 的 模块 时 指定 可 变 

参数 的 值 ， 文 持 这 些 要 求 . 
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这 些 参数 的 值 可 由 insmod 或 者 modprobe 在 加 载 时 指定 ; 后 者 也 可 以 从 它 的 配置 文件 
(/etc/modprobe. conf) 读 取 参 数 的 值 ， 这 些 命 令 在 命令 行 里 接受 几 类 规格 的 值 ， 作 为 演示 
这 种 能 力 的 一 种 方法 ， 想 象 一 个 特别 需要 的 对 本 章 开 始 的 ?hello world" 模块 ( 称 为 hellop) 
的 改进 .我 们 增加 2 个 参数 : 一 个 整 型 值 ， 称 为 howmany， 一 个 字符 串 称 为 whom， 我 们 
的 特别 多 功能 的 模块 就 在 加 载 时 ， 欢 迎 whom 不 止 一 次 ， 而 是 howmany 次 .这样 一 个 模块 
可 以 用 这 样 的 命令 行 加 载 : 











insmod hellop howmany-10 whom-^Mom^ 
一 旦 以 那样 的 方式 加 载 ，hellop Zi "hello, Mom" 10 次 . 


但 是 ， 在 insmod 可 以 修改 模块 参数 前 ， 模 块 必须 使 它们 可 用 . 参数 用 moudle_param 宏 
定义 来 声明 ， 它 定义 在 moduleparam.h. module param 使 用 了 3 个 参数 : 变量 名 ， 它 的 
类 型 ， 以 及 一 个 权限 掩 码 用 来 做 一 个 辅助 的 sysfs AO. 这 个 宏 定 义 应 当 放 在 任何 函数 之 
外 ， 典 型 地 是 出 现在 源 文件 的 前 面 ， 因 此 hellop 将 声明 它 的 参数 ， 并 如 下 使 得 对 insmod 
可 用 : 














static char *whom = "world"; 

static int howmany = 1; 

module param(howmany, int, S IRUGO); 
module param(whom, charp, S IRUGO); 


模块 参数 支持 许多 类 型 


bool 
invbool 





一 个 布尔 型 ( true 或 者 false) 值 (相关 的 变量 应 当 是 int 类 型 ). invbool 类 型 颠 
倒 了 值 ， 所 以 真 值 变 成 false, ECL AMA. 


charp 
一 个 字符 指针 值 ， 内 存 为 用 户 提 供 的 字 串 分 配 ， 指 针 因 此 设置 . 


int 
long 
short 
uint 
ulong 
ushort 


基本 的 变 长 整 型 值 ， 以 u 开头 的 是 无 符号 值 





数组 参数 ， 用 逗号 间隔 的 列表 提供 的 值 ， 模 块 加 载 者 也 支持 .声明 一 个 数组 参数 ， 使 用 : 


module param array (name, type, num, perm) ; 
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这 里 name 是 你 的 数组 的 名 子 (也 是 参数 名 )，type 是 数组 元 素 的 类 型 ，num 是 一 个 整 型 变 
量 ，perm 是 通常 的 权限 值 ， 如 果 数 组 参数 在 加 载 时 设置 ，num 被 设置 成 提供 的 数 的 个 数 . 
模块 加 载 者 拒绝 比 数组 能 放下 的 多 的 值 . 









































如 果 你 确实 需要 一 个 没有 出 现在 上 面 列表 中 的 类 型 ， 在 模块 代码 里 有 钩子 会 允许 你 来 定义 
它们 ; 任何 使 用 它们 的 细节 见 moduleparam. h， 所 有 的 模块 参数 应 当 给 定 一 个 缺 省 值 ; 
insmod 只 在 用 户 明确 告知 它 的 时 候 才 改变 这 些 值 ， 模 块 可 检查 明显 的 参数 ， 通 过 对 应 它们 
的 缺 省 值 检查 这 些 参 数 . 




















最 后 的 module param 字段 是 一 个 权限 值 ; 你 应 当 使 用 《linux/stat.h> 中 定义 的 值 ， 这 
个 值 控制 谁 可 以 存 取 这 些 模 块 参数 在 sysfs 中 的 表示 .如 果 perm 被 设 为 0， 就 根本 没有 
sysfs 项 .否则 ， 它 出 现在 /sys/module?^ 下面 ， 带 有 给 定 的 权限 .使 用 S IRUGO 作为 
参数 可 以 被 所 有 人 读 取 ， 但 是 不 能 改变 ; S IRUGO|S IWUSR 允许 root 来 改变 参数 ， 注 意 ， 
如 果 一 个 参数 被 sysfs 修改 ， 你 的 模块 看 到 的 参数 值 也 改变 了 ， 但 是 你 的 模块 没有 任何 其 
他 的 通知 ， 你 应 当 不 要 使 模块 参数 可 写 ， 除 非 你 准备 好 检测 这 个 改变 并 且 因 而 作出 反应 . 


2.9. ÆHF E 


一 个 第 一 次 涉及 内 核 问 题 的 Unix 程序 员 ， 可 能 会 紧张 写 一 个 模块 ， 编 写 一 个 用 户 程 序 来 
直接 读 写 设备 端口 可 能 容易 些 . 
































确实 ， 有 几 个 论据 倾向 于 用 户 空间 编程 ， 有 时 编写 一 个 所 谓 的 用 户 空间 设备 驱动 对 比 钻研 
内 核 是 一 个 明智 的 选择 .在 本 节 ， 我 们 讨论 几 个 理由 ， 为 什么 你 可 能 在 用 户 空 间 编 写 驱动 . 
本 书 是 关于 内 核 空间 驱动 的 ， 但 是 ， 所 以 我 们 不 超越 这 个 介绍 性 的 讨论 . 














用 户 空间 驱动 的 好 处 在 于 : 


。 完整 的 C 库 可 以 连接 .驱动 可 以 进行 许多 奇怪 的 任务 ， 不 用 依靠 外 面 的 程序 (实现 

使 用 集 略 的 工具 程序 ， 常 常 随 着 驱动 自身 发 布 ). 

。 程序 员 可 以 在 驱动 代码 上 运行 常用 的 调试 器 ， 而 不 必 走 调试 一 个 运行 中 的 内 核 的 弯 
路 . 

。 如 果 一 个 用 户 空 间 驱 动 挂 起 了 ， 你 可 简单 地 杀 挥 它 。 驱 动 的 问题 不 可 能 挂 起 整个 系 
统 ， 除 非 被 控制 的 硬件 真 的 疯 掉 了 . 

。 用 户 内 存 是 可 交换 的 ， 不 象 内 核 内 存 . 一 个 不 常 使 用 的 却 有 很 大 一 个 驱动 的 设备 不 
会 占据 别 的 程序 可 以 用 到 的 RAM， 除 了 在 它 实 际 在 用 时 . 

。 一 个 精心 设计 的 驱动 程序 仍然 可 以 ， 如 同 内 核 空间 驱动 ， 人 允许 对 设备 的 并 行 存 取 . 

。 如 果 你 必须 编写 一 个 封闭 源码 的 驱动 ， 用 户 空间 的 选项 使 你 容易 避免 不 明 衣 的 许可 
的 情况 和 改变 的 内 核 接 口 带 来 的 问题 . 



































例如 ，USB 驱动 能 够 在 用 户 空间 编写 ; 看 (仍然 年 幼 ) libusb 项 目 ， 在 

libusb. sourceforge. net 和 “gadgetfs” 在 内 核 源码 里 . 另 一 个 例子 是 X 服务 器 : 它 确 
切 地 知道 它 能 处 理 哪些 硬件 ， 哪 些 不 能 ， 并 且 它 提供 图 形 资 源 给 所 有 的 X 客户 . 注意 ， 然 
而 ， 有 一 个 缓慢 但 是 固定 的 漂移 向 着 基于 frame-buffer 的 图 形 环 境 ，X 服务 器 只 是 作为 
一 个 服务 器 ， 基 于 一 个 内 核 空 间 的 真实 的 设备 驱动 ， 这 个 驱动 负责 真正 的 图 形 操 作 . 















































5 [s] 





然而 ， 在 本 书写 作 时 ， 有 讨论 将 参数 移出 sysfs. 
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常常 ， 用 户 空间 驱动 的 编写 者 完成 一 个 服务 器 进程 ， 从 内 核 接管 作为 单个 代理 的 负责 硬件 
控制 的 任务 ， 客 户 应 用 程序 就 可 以 连接 到 服务 器 来 进行 实际 的 操作 ; 因此， 一 个 聪明 的 驱 
动 经 常 可 以 允许 对 设备 的 并 行 存 取 . 这 就 是 X 服务 器 如 何 工作 的 . 





























但 是 用 户 空间 的 设备 驱动 的 方法 有 儿 个 缺点 ， 最 重要 的 是 : 








。 中 断 在 用 户 空间 无 法 用 .在 某 些 平台 上 有 对 这 个 限制 的 解决 方法 ， 例 如 在 IA32 fk 
系 上 的 vm86 系统 调用 . 

。 只 可 能 通过 内 存 映 射 /dev/mem 来 使 用 DMA， 而 且 只 有 特权 用 户 可 以 这 样 做 . 

。 存 取 I/0 端口 只 能 在 调用 ioperm 或 者 iopl 之 后 . 此 外 ， 不 是 所 有 的 平台 支持 这 
些 系统 调用 ， 而 存 取 /dev/port 可 能 太 慢 而 无 效率 ,这 些 系 统 调用 和 设备 文件 都 要 
求 特权 用 户 . 

。 响应 时 间 慢 ， 因 为 需要 上 下 文 切换 在 客户 和 人 硬件 之 闻 传 递 信 息 或 动作 . 

。 更 不 好 的 是 ， 如 果 驱 动 已 被 交换 到 硬盘， 响应 时 间 会 长 到 不 可 接受 .使 用 mock 系 
统 调用 可 能 会 有 帮助 ， 但 是 常常 的 你 将 需要 锁 住 许多 内 存 页 ， 因 为 一 个 用 户 空间 程 
序 依赖 大 量 的 库 代 码 . mlock， 也 ， 限 制 在 授权 用 户 上 . 

。 最 重要 的 设备 不 能 在 用 户 空间 人 处理 ， 包 括 但 不 限于 ， 网 络 接口 和 块 设备 . 






























































如 你 所 见 ， 用 户 空 间 驱 动 不 能 做 的 事情 毕 竞 太 多 ， 感 兴趣 的 应 用 程序 还 是 存在 : 例如 ， 对 
SCSI 扫描 器 设备 的 支持 ( 由 SANE 包 实 现 ) 和 CD 刻录 器 〈 由 cdrecord fU] LR SC 
JL). 在 两 种 情况 下 ， 用 户 级 别 的 设备 情况 依赖 “SCSI gneric” 内 核 驱 动 ， 它 输出 了 低层 
的 SCSI 功能 给 用 户 程序 ， 因 此 它们 可 以 驱动 它们 自己 的 硬件 . 

















一 种 在 用 户 空间 工作 的 情况 可 能 是 有 音义 的 ， 当 你 开始 处 理 新 的 没有 用 过 的 硬件 时 .这 样 
你 可 以 学 习 去 管理 你 的 人 硬件， 不必 担 心 挂 起 整个 系统 ， 一 旦 你 完成 了 ， 在 一 个 内 核 模块 中 
封装 软件 就 会 是 一 个 简单 操作 了 . 


2. 10， 人 快速 参考 
本 节 总 结 了 我 们 在 本 章 接 触 到 的 内 核 函 数 ， 变 量 ， 宏 定义 ， 和 /proc 文件 . 它 的 用 意 是 作 


为 一 个 参考 . 每 一 项 列 都 在 相关 头 文件 的 后 面 ， 如 果 有 .从 这 里 开始 ， 在 儿 乎 每 划 的 结尾 
会 有 类 似 一 节 ， 总 结 一 章 中 介绍 的 新 符号 ， 本 节 中 的 项 通常 以 在 本 章 中 出 现 的 顺序 排列 : 






































insmod 
modprobe 
rmmod 


用 户 空 间 工 具 ， 加 载 模块 到 运行 中 的 内 核 以 及 去 除 它们 . 
Hinclude <linux/init.h> 


module init(init function); 
module exit(cleanup function); 


指定 模块 的 初始 化 和 清理 函数 的 宏 定义 . 








_ init 
JA initdata 
| exit 
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. exitdata 


函数 ( ”init 和 — exit ) 和 数据 ( initdata 和 exitdata) 的 标记 ， 只 用 在 模 
块 初始 化 或 者 清理 时 间 . 为 初始 化 所 标识 的 项 可 能 会 在 初始 化 完成 后 丢弃 ; 退出 的 
项 可 能 被 丢弃 如 果 内 核 没 有 配置 模块 卸载 . 这 些 标记 通过 使 相关 的 目标 在 可 执行 文 
件 的 特定 的 ELF 节 里 被 替换 来 工作 . 











Hinclude <linux/sched. h> 





最 重要 的 头 文件 中 的 一 个 ， 这 个 文件 包含 很 多 驱动 使 用 的 内 核 API 的 定义 ， 包 括 睡 
眠 函数 和 许多 变量 声明 ， 








struct task struct *current; 


current-?pid 
current-?comm 


进程 ID 和 当前 进程 的 命令 名 . 














ob j-m 

一 个 makefile 符号 ， 内 核 建 立 系 统 用 来 决定 当前 目录 下 的 哪个 模块 应 当 被 建立 . 
/ sys/module 
/proc/modules 








/sys/module 是 一 个 sysfs 目录 层次 ， 包 含 当前 加 载 模块 的 信息 . /proc/moudles 
是 旧式 的 ， 那 种 信息 的 单个 文件 版 本 ， 其 中 的 条 目 包 含 了 模块 名 ， 每 个 模块 占用 的 
内 存 数量 ， 以 及 使 用 计数 ， 另 外 的 字 串 追加 到 每 行 的 末尾 来 指定 标志 ， 对 这 个 模块 
当前 是 活动 的 . 

















vermagic.o 





来 自 内 核 源 码 目 录 的 目标 文件 ， 描 述 一 个 模块 为 之 建立 的 环境 . 
#include <linux/module. h> 
必需 的 头 文件 ， 它 必须 在 一 个 模块 源码 中 包含 . 


Hinclude <linux/version. h> 








头 文件 ， 包 含 在 建立 的 内 核 版 本 信息 . 





LINUX VERSION CODE 


整 型 宏 定 义 ， 对 ifdef 版 本 依赖 有 用 . 
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EXPORT SYMBOL (symbol); 
EXPORT SYMBOL GPL (symbol); 





宏 定 义 ， 用 来 输出 一 个 符号 给 内 核 ， 第 2 种 形式 输出 没有 版 本 信息 ， 第 3 种 限制 
输出 给 GPL 许可 的 模块 . 








MODULE AUTHOR (author) ; 

MODULE DESCRIPTION (description); 
MODULE VERSION(version string); 
MODULE DEVICE TABLE(table info); 
MODULE ALIAS(alternate name); 


放置 文档 在 目标 文件 的 模块 中 . 


module init(init function); 
module exit(exit function); 


宏 定 义 ， 声 明 一 个 模块 的 初始 化 和 清理 函数 . 





#include <linux/moduleparam. h> 
module param(variable, type, perm); 








宏 定义 ， 创 建 模块 参数 ， 可 以 被 用 户 在 模块 加 载 时 调整 ( 或 者 在 启动 时 间 ， 对 于 内 
骨 代 码 ) .类 型 可 以 是 bool, charp, int, invbool, short, ushort, uint, ulong, 
或 者 intarray. 


Hinclude <linux/kernel. h> 
int printk(const char * fmt, ...); 


内 核 代码 的 printf 类 似 物 . 
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第 3 章 字符 驱动 


本 章 的 目的 是 编写 一 个 完整 的 字符 设备 驱动 ， 我 们 开发 一 个 字符 驱动 是 因为 这 一 类 适合 大 部 分 简单 便 件 
设备 ， 字 符 驱 动 也 比 块 驱 动易 于 理解 (我 们 在 后 续 章节 接触 )， 我 们 的 最 终 目的 是 编写 一 个 模块 化 的 字符 
了 驱动， 但 是 我 们 不 会 在 本 章 讨论 模块 化 的 事情 . 





















































贯 串 本 章 ， 我 们 展示 从 一 个 真实 设备 驱动 提取 的 代码 片段 : scull( Simple Character Utility for 
Loading Localities). scull 是 一 个 字符 驱动 ， 操 作 一 块 内 存 区 域 好 像 它 是 一 个 设备 ， 在 本 章 ， 因 为 
scull 的 这 个 怪 特 性 ， 我 们 可 互 换 地 使 用 设备 这 个 词 和 ”scull 使 用 的 内 存 区 ”. 


























scull 的 优势 在 于 它 不 依赖 硬件 。scull 只 是 操作 一 些 从 内 核 分 配 的 内 存 ， 任 何人 都 可 以 编译 和 运行 
scull, JfH. scull 在 Linux 运行 的 体系 结构 中 可 移植 ， 另 一 方面 ， 这 个 设备 除了 演示 内 核 和 字符 驱 
动 的 接口 和 允许 用 户 运行 一 些 测 试 之 外 ， 不 做 任何 有 用 的 事情 . 


3.1. scull 的 设计 


编写 驱动 的 第 一 步 是 定义 驱动 将 要 提供 给 用 户 程 序 的 能 力 (机 制 ). 因为 我 们 的 “设备 "是 计算 
机 内 存 的 一 部 分 ， 我 们 可 自由 做 我 们 想 做 的 事情 ， 它 可 以 是 一 个 顺序 的 或 者 随机 存 取 的 设 
备 ， 一 个 或 多 个 设备 ， 等 等 . 



























































为 使 scull 作为 一 个 模板 来 编写 真实 设备 的 真实 驱动 ， 我 们 将 展示 给 你 如 何在 计算 机 内 存 
上 实现 几 个 设备 抽象 ， 每 个 有 不 同 的 个 性 . 


scull 源码 实现 下 面 的 设备 ， 横 块 实现 的 每 种 设备 都 被 引用 做 一 种 类 型 . 


scullO 到 scull3 








4 个 设备 ， 每 个 由 一 个 全 局 永久 的 内 存 区 组 成 . 全 局 意味 着 如 果 设 备 被 多 次 打开 ， 
设备 中 含有 的 数据 由 所 有 打开 它 的 文件 描述 符 共享 .永久 意味 着 如 果 设 备 关 闭 又 重 
新 打开 ， 数 据 不 会 丢失 ， 这 个 设备 用 起 来 有 意思 ， 因 为 它 可 以 用 惯常 的 命令 来 存 取 
和 测试 ， 例 如 cp, cat, AK I/O 重 定向 . 














scullpipeO 到 scullpipe3 


4 个 FIFO (先入 先 出 ) 设备 ， 行 为 象 管道 ， 一 个 进程 读 的 内 容 来 自 另 一 个 进程 所 写 
的 ， 如 果 多 个 进程 读 同 一 个 设备 ， 它 们 竞争 数据 ,，scullpipe 的 内 部 将 展示 阻塞 读 
写 和 非 阻塞 读 写 如 何 实现 ， 而 不 必 采 取 中 断 ， 尽 管 真实 的 驱动 使 用 硬件 中 断 来 同步 
它们 的 设备 ， 阻 塞 和 非 阻 塞 操作 的 主题 是 重要 的 并 且 与 中 断 处 理 是 分 开 的 .〈 在 第 10 
章 涉及 ). 




















scullsingle 
scullpriv 
sculluid 
scullwuid 


这 些 设备 与 scul10 相似 ， 但 是 在 什么 时 候 允 许 打 开 上 有 一 些 限制 ， 第 一 个 
( snullsingle) 只 允许 一 次 一 个 进程 使 用 驱动 ， 而 scullpriv 对 每 个 虚拟 终端 (或 
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者 X 终端 会 话 ) 是 私有 的 ， 因 为 每 个 控制 台 /终端 上 的 进程 有 不 同 的 内 存 区 . 
sculluid 和 scullwuid 可 以 多 次 打开 ， 但 是 一 次 只 能 是 一 个 用 户 ; 前 者 返回 一 个 
设备 忙 " 错 误 ， 如 果 另 一 个 用 户 锁 着 设备 ， 而 后 者 实现 阻塞 打开 .， 这些 scull 的 变 
体 可 能 看 来 混淆 了 策略 和 机 制 ， 但 是 它们 值得 看 看 ， 因 为 一 些 实际 设备 需要 这 类 管 
JH 


























每 个 scull 设备 演示 了 驱动 的 不 同 特色 ， 并 且 呈 现 了 不 同 的 难度 . 本章 涉及 scullO 到 
scull3 的 内 部 ; 更 高 级 的 设备 在 第 6 章 涉 及 . scullpipe 在 “一 个 阻塞 1/0 例子 “一 节 中 
描述 ， 其 他 的 在 “设备 文件 上 的 存 取 控制 “中 描述 . 


3. 2， 主 次 编号 


字符 设备 通过 文件 系统 中 的 名 子 来 存 取 ， 那 些 名 子 称 为 文件 系统 的 特殊 文件 ， 或 者 设备 文 
件 ， 或 者 文件 系统 的 简单 结 点 ; 惯例 上 它们 位 于 /dev 目录 . 字符 驱动 的 特殊 文件 由 使 用 
ls -1 的 输出 的 第 一 列 的 %c 标识， 块 设备 也 出 现在 /dev 中 ， 但 是 它们 由 ”b” BRA. 本章 
集中 在 字符 设备 ， 但 是 下 面 的 很 多 信息 也 适用 于 块 设备 . 









































如 果 你 发 出 1s -1 命令 ， 你 会 看 到 在 设备 文件 项 中 有 2 个 数 (由 一 个 去 号 分 隔 ) 在 最 后 修 
改 日 期 前 面 ， 这 里 通常 是 文件 长 度 出 现 的 地 方 . 这 些 数字 是 给 特殊 设备 的 主 次 设备 编号 . 
下 面 的 列表 显示 了 一 个 典型 系统 上 出 现 的 几 个 设备 .它们 的 主编 号 是 1 4, 7， 和 10， 而 
次 编号 是 1，3，5，64，65， 和 129. 














crw-rw-rw- 1 root root 1l, 3 Apr 11 2002 null 


GIÍW--————— 1 root root 10, 1 Apr 11 2002 psaux 
ër === ] root root 4, 1 Oct 28 03:04 ttyl 
crw-rw-rw- 1 root tty 4, 64 Apr 11 2002 ttys0 
crw-rw-—-—- 1 root uucp 4, 65 Apr 11 2002 ttySl 
crw--w———- ] vesa tty 7, 1 Apr 11 2002 vesl 
crw--w-——- 1 vesa tty 7,129 Apr 11 2002 vcsal 


crw-rw-rw- 1 root root 1, 5 Apr 11 2002 zero 


传统 上 ， 主 编写 标识 设备 相连 的 驱动 ， 例 如 ，/dev/null 和 /dev/zero 都 由 驱动 1 来 
理 ， 而 虚拟 控制 台 和 串口 终端 都 由 驱动 4 管理 ; 同样 ，vcsl 和 vcsal 设备 都 由 驱动 7 
管理 ， 现 代 Linux 内 核 允 许多 个 驱动 共享 主编 号 ， 但 是 你 看 到 的 大 部 分 设备 仍然 按照 一 个 
主编 号 一 个 驱动 的 原则 来 组 织 . 


D 















































次 编号 被 内 核 用 来 决定 引用 哪个 设备 ， 依 据 你 的 驱动 是 如 何 编写 的 (如 同 我 们 下 面 见 到 的 )， 
你 可 以 从 内 核 得 到 一 个 你 的 设备 的 直接 指针 ， 或 者 可 以 自己 使 用 次 编号 作为 本 地 设备 数组 
的 索引 ， 不 论 哪个 方法 ， 内 核 自 己 几 乎 不 知道 次 编号 的 任何 事情 ， 除 了 它们 指向 你 的 驱动 
实现 的 设备 . 


3. 2. 1， 设 备 编 号 的 内 部 表示 


在 内 核 中 ，dev t 类 型 (在 《linux/types. h> 中 定义 ) 用 来 持 有 设备 编写 一 主 次 部 分 都 包 
括 ， 对 于 2.6.0 WE dev t 是 32 位 的 量 ，12 位 用 作 主 编号 ，20 位 用 作 次 编号 ， 你 的 
代码 应 当 ， 当 然 ， 对 于 设备 编号 的 内 部 组 织 从 不 做 任何 假设 ; 相反 ， 应 当 利用 在 
《linux/kdev_t. h> 中 的 一 套 宏 定义 ， 为 获得 一 个 dev t 的 主 或 者 次 编号 ， 使 用 : 
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MAJOR (dev t dev); 
MINOR(dev t dev); 











相反 ， 如 果 你 有 主 次 编号 ， 需 要 将 其 转换 为 一 个 dev t, WH: 
MKDEV(int major, int minor); 


HEX 2.6 内 核能 容纳 有 大 量 设备 ， 而 以 前 的 内 核 版 本 限制 在 255 个 主编 号 和 255 个 次 
编号 ， 有 人 认为 这 么 宽 的 范围 在 很 长 时 间 内 是 足够 的 ， 但 是 计算 领域 被 这 个 特性 的 错误 假 
设 摘 乱 了 ， 因 此 你 应 当 希 望 dev t 的 格式 将 来 可 能 再 次 改变 ; 但 是 ， 如 果 你 仔细 编写 你 的 
驱动 ， 这 些 变 化 不 会 是 一 个 问题 . 


3.2.2. 分 配 和 释放 设备 编号 


在 建立 一 个 字符 驱动 时 你 的 驱动 需要 做 的 第 一 件 事 是 获取 一 个 或 多 个 设备 编号 来 使 用 . 为 
此 目的 的 必要 的 函数 是 register chrdev region， 在 《linux/fs.h>》 中 声明 : 























int register chrdev region(dev t first, unsigned int count, char *name); 























XE, first 是 你 要 分 配 的 起 始 设备 编号 ，first 的 次 编号 部 分 常常 是 0， 但 是 没有 要 求 
是 那个 效果 . count 是 你 请 求 的 连续 设备 编号 的 总 数 ， 注意 ， 如 果 count 太 大 ， 你 要 求 的 
范围 可 能 溢出 到 下 一 个 次 编号 ; 但 是 只 要 你 要 求 的 编号 范围 可 用 ， 一 切 都 仍然 会 正确 工作 . 
最 后 ，name 是 应 当 连 接 到 这 个 编号 范围 的 设备 的 名 子 ; 它 会 出 现在 /proc/devices 和 
sysfs 中 . 
































如 同 大 部 分 内 核 函数 ， 如 果 分 配 成 功 进行 ，register_chrdev_region 的 返回 值 是 0， 出 错 
的 情况 下 ， 返 回 一 个 负 的 错误 码 ， 你 不 能 存 取 请 求 的 区 域 . 














如 果 你 确实 事先 知道 你 需要 哪个 设备 编写 ，register_chrdev_region 工作 得 好 . 然而 ， 你 
常常 不 会 知道 你 的 设备 使 用 哪个 主编 号 ; 在 Linux 内 核 开 发 社团 中 一 直 努 力 使 用 动态 分 配 
设备 编号 ， 内 核 会 乐于 动态 为 你 分 配 一 个 主编 号 ， 但 是 你 必须 使 用 一 个 不 同 的 函数 来 请 求 
这 个 分 配 . 
































int alloc chrdev region(dev t *dev, unsigned int firstminor, unsigned int count, 
char *name); 

















使 用 这 个 函数 ，dev 是 一 个 只 输出 的 参数 ， 它 在 函数 成 功 完 成 时 持 有 你 的 分 配 范围 的 第 一 
个 数 . fisetminor 应 当 是 请 求 的 第 一 个 要 用 的 次 编写;， 它 常常 是 0，count 和 name 参数 
如 同 给 request chrdev region 的 一 样 . 

















4 


不 管 你 任何 分 配 你 的 设备 编号， 你 应 当 在 不 再 使 用 它们 时 释放 它 .， 设 备 编号 的 释放 使 用 : 





void unregister chrdev region(dev t first, unsigned int count); 


调用 unregister chrdev region 的 地 方 常常 是 你 的 模块 的 cleanup 函数 . 








上 上 面 的 函数 分 配 设备 编号 给 你 的 驱动 使 用 ， 但 是 它们 不 告诉 内 核 你 实际 上 会 对 这 些 编号 做 
什么 ， 在 用 户 空间 程序 能 够 存 取 这 些 设备 写 中 一 个 之 前 ， 你 的 驱动 需要 连接 它们 到 它 的 实 
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现 设 备 操作 的 内 部 函数 上 ， 我 们 将 描述 如 何 简短 完成 这 个 连接 ， 但 首先 顾及 一 些 必 要 的 术 


节 问 题 . 
3. 2. 3， 主 编号 的 动态 分 配 


些 主 设备 编号 是 静态 分 派 给 最 普通 的 设备 的 ， 一 个 这 些 设备 的 列表 在 内 核 源 码 树 的 
Documentation/devices. txt 中 ， 分 配给 你 的 新 驱动 使 用 一 个 已 经 分 配 的 静态 编号 的 机 会 
很 小 ， 但 是 ， 并 且 新 编号 没 在 分 配 . 因此 ， 作 为 一 个 驱动 编写 者 ， 你 有 一 个 选择 : 你 可 以 
简单 地 捡 一 个 看 来 没有 用 的 编号 ， 或 者 你 以 动态 方式 分 配 主编 号 ， 只 要 你 是 你 的 驱动 的 唯 
一 用 户 就 可 以 捡 一 个 编号 用 ; 一 旦 你 的 驱动 更 广泛 的 被 使 用 了 ， 一 个 随机 捡 来 的 主编 号 将 
导致 冲突 和 麻烦 . 


















































因此 ， 对 于 新 驱动 ， 我 们 强烈 建议 你 使 用 动态 分 配 来 获取 你 的 主 设备 编号 ， 而 不 是 随机 选 
取 一 个 当前 空闲 的 编号 ， 换 名 话说 ， 你 的 驱动 应 当 几 乎 肯定 地 使 用 alloc_chrdev_region， 


不 是 register chrdev region. 














动态 分 配 的 缺点 是 你 无 法 提前 创建 设备 节点 ， 因 为 分 配给 你 的 模块 的 主编 号 会 变化 ， 对 于 
驱动 的 正常 使 用 ， 这 不 是 问题 ， 因 为 一 旦 编号 分 配 了 ， 你 可 从 /proc/devices 中 读 取 


m+ [616 
Eis. 






































为 使 用 动态 主编 号 来 加 载 一 个 驱动 ， 因 此 ， 可 使 用 一 个 简单 的 脚本 来 代替 调用 insmod， 在 
调用 insmod 后 ， 读 取 /proc/devices 来 创建 特殊 文件 . 





一 个 典型 的 /proc/devices 文件 看 来 如 下 : 


Character devices: 
1 mem 

2 pty 

3 ttyp 

4 ttyS 

6 lp 

7 VCS 

10 misc 
13 input 
14 sound 
2l sg 
180 usb 


Block devices: 
2 fd 

8 sd 

1l sr 

65 sd 

66 sd 





6 [6] 











从 sysfs 中 能 获取 更 好 的 设备 信息 ， 在 基于 2.6 的 系统 通常 加 载 于 /sys. 但 是 使 scull 通过 sysfs 输出 信息 超 
出 了 本 章 的 范围 ; 我 们 在 14 章 中 回 到 这 个 主题 . 











m 
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因此 加 载 一 个 已 经 安排 了 一 个 动态 编号 的 模块 的 脚本 ， 可 以 使 用 一 个 工具 来 编写 ， 如 awk, 
来 从 /proc/devices 获取 信息 以 创建 /dev 中 的 文件 . 











下 面 的 脚本 ，snull load， 是 scull 发 布 的 一 部 分 ， 以 模块 发 布 的 驱动 的 用 户 可 以 从 系统 
的 rc. local 文件 中 调用 这 样 一 个 脚本 ， 或 者 在 需要 模块 时 手工 调用 它 . 





#!/bin/sh 
module-^scull^ 
device-"scull^ 
mode= 664^ 


& invoke insmod with all arguments we got 
4 and use a pathname, as newer modutils don't look in . by default 
/sbin/insmod ./$module.ko $* || exit 1 


# remove stale nodes 
rm -f /dev/$ {device} [0-3] 


major=$ (awk ”\\$2==\" $module\” 
mknod /dev/$ {device}0 c $major 
mknod /dev/$ {device}l c $major 
mknod /dev/$ {device}2 c $major 
mknod /dev/$ {device}3 c $major 


print \\$1}” /proc/devices) 


Co Nee OQ -—A 


# give appropriate group/permissions, and change the group. 

4 Not all distributions have staff, some have "wheel" instead. 
group=” staff” 

grep -q ”staff:” /etc/group || group=”wheel” 


chgrp $group /dev/$ {device} [0-3] 
chmod $mode /dev/$ {device} [0-3] 


这 个 脚本 可 以 通过 重 定义 变量 和 调整 mknod 行 来 适用 于 另外 的 驱动 ， 这 个 脚本 仅仅 展示 了 
创建 4 个 设备 ， 因 为 4 是 scull 源码 中 缺 省 的 . 














脚本 的 最 后 几 行 可 能 有 些 模糊 :为 什么 改变 设备 的 组 和 模式 ? 理由 是 这 个 脚本 必须 由 超级 用 
户 运行 ， 因 此 新 建 的 特殊 文件 由 root MA. 许可 位 缺 省 的 是 只 有 root 有 写 权 限 ， 而 任 
何人 可 以 读 ， 通 常 ， 一 个 设备 节点 需要 一 个 不 同 的 存 取 策 略 ， 因 此 在 某 些 方面 别人 的 存 取 
权限 必须 改变 .我 们 的 脚本 缺 省 是 给 一 个 用 户 组 存 取 ， 但 是 你 的 需求 可 能 不 同 . 在 第 6 章 
的 “设备 文件 的 存 取 控制 一 节 中 ，sculluid 的 代码 演示 了 驱动 如 何 能 够 强制 它 自己 的 对 设 
备 存 取 的 授权 . 


























还 有 一 个 scull unload 脚本 来 清理 /dev 目录 并 去 除 模块 . 














作为 对 使 用 一 对 脚本 来 加 载 和 印 载 的 另外 选择 ， 你 可 以 编写 一 个 init 脚本 ， 准 备 好 放 在 
你 的 发 布 使 用 这 些 脚本 的 目录 中 .了 "作为 scull 源码 的 一 部 分 ， 我 们 提供 了 一 个 相当 完整 

















”加 Linux Standard Base 指出 init 脚本 应 当 放 在 /etc/init. d， 但 是 一 些 发 布 仍然 放 在 别处 ， 另 外 ， 如 果 你 的 脚本 
在 启动 时 运行 ， 你 需要 从 合适 的 运行 级 别 目录 做 一 个 连接 给 它 (也 就 是 ，... /rc3. d). 
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和 可 配置 的 init 脚本 例子 ， 称 为 scull. init; 它 接受 传统 的 参数 -- start, stop, 4I 
restart 一 并 且 完 成 scull load 和 scull unload 的 角色 . 

















如 果 反 复 创 建 和 销毁 /dev 节点 ， 听 来 过 分 了 ， 有 一 个 有 用 的 办 法 ， 如果 你 在 加 载 和 他 载 
单个 驱动 ， 你 可 以 在 你 第 一 次 使 用 你 的 脚本 创建 特殊 文件 之 后 ， 只 使 用 rmmod 和 insmod: 
这 样 动态 编号 不 是 随机 的 . “并 且 你 每 次 都 可 以 使 用 所 选 的 同一 个 编号 ， 如 果 你 不 加 载 任 
何 别 的 动态 模块 .在 开发 中 避免 长 脚本 是 有 用 的 ， 但 是 这 个 技巧 ， 显 然 不 能 扩展 到 一 次 多 
于 一 个 驱动 . 












































安排 主编 号 最 好 的 方式 ， 我 们 认为 ， 是 缺 省 使 用 动态 分 配 ， 而 留 给 自己 在 加 载 时 指定 主编 
号 的 选项 权 ， 或 者 其 至 在 编译 时 .scull 实现 以 这 种 方式 工作 ; 它 使 用 一 个 全 局 变量 ， 
scull_major， 来 持 有 选 定 的 编号 (还 有 一 个 scull minor 给 次 编号 ) ， 这 个 变量 初始 化 为 
SCULL MAJOR, 4E XE scull.h. 发 布 的 源码 中 的 SCULL MAJOR 的 缺 省 值 是 0， 意 思 是 “使 
用 动态 分 配 “， 用 户 可 以 接受 缺 省 值 或 者 选择 一 个 特殊 主编 号 ， 或 者 在 编译 前 修改 安定 义 或 
者 在 insmod 命令 行 指 定 一 个 值 给 scull major. 最后， 通过 使 用 scull load 脚本 ， 用 
户 可 以 在 scull load 的 命令 行 传递 参数 给 insmod. ^" 






























































这 是 我 们 用 在 scull 的 源码 中 获取 主编 号 的 代码 : 


if (scull major) { 

dev = MKDEV(scull major, scull minor); 

result = register chrdev region(dev, scull nr devs, "scull^); 

} else { 

result = alloc chrdev region (&dev, scull minor, scull nr devs, ^scull^); 
scull major = MAJOR (dev) ; 

} 

if (result < 0) { 

printk (KERN WARNING “scull: can't get major %d\n”, scull major); 

return result; 


} 




















本 书 使 用 的 几乎 所 有 例子 驱动 使 用 类 似 的 代码 来 分 配 它们 的 主编 号 


3.3. 一 些 重要 数据 结构 


如 同 你 想象 的 ， 注 册 设 备 编号 仅仅 是 驱动 代码 必须 进行 的 诸多 任务 中 的 第 一 个 .我 们 将 很 
快 看 到 其 他 重要 的 驱动 组 件 ， 但 首先 需要 涉及 一 个 别 的 . 大 部 分 的 基础 性 的 驱动 操作 包括 
3 个 重要 的 内 核 数 据 结构 ， 称 为 file_operations，file， 和 inode. 需要 对 这 些 结构 的 
基本 了 解 才能 够 做 大 量 感 兴趣 的 事情 ， 因 此 我 们 现在 在 进入 如 何 实现 基础 性 驱动 操作 的 细 
节 之 前 ， 会 快速 查看 每 一 个 . 


3. 3. 1， 文 件 操作 

































































“尽管 某 些 内 核 开 发 者 已 警告 说 将 来 就 会 这 样 做 , 


m 











9 [9] 





init 脚本 scull. init 不 在 命令 行 中 接受 驱动 选项 ， 但 是 它 支 持 一 个 配置 文件 ， 
动 使 用 . 








> 











为 它 被 设计 来 在 启动 和 关机 时 自 
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到 现在 ， 我 们 已 经 保留 了 一 些 设备 编号 给 我 们 使 用 ， 但 是 我 们 还 没有 连接 任何 我 们 设备 操 
作 到 这 些 编号 上 ，file_operation 结构 是 一 个 字符 驱动 如 何 建立 这 个 连接 . 这 个 结构 ， 定 
义 在 《linux/fs.h>， 是 一 个 函数 指针 的 集合 ， 每 个 打开 文件 (内 部 用 一 个 file 结构 来 代 
表 ， 稍 后 我 们 会 查看 ) 与 它 自身 的 函数 集合 相关 连 ( 通过 包含 一 个 称 为 fop 的 成 员 ， 它 指 
问 一 个 file operations 结构 ). 这 些 操 作 大 部 分 负责 实现 系统 调用 ， 因 此 ， 命 名 为 open, 
read， 等 等 ,我们 可 以 认为 文件 是 一 个 对象“ 并 有 旦 其 上 的 函数 操作 称 为 它 的 “方法 ”， 使 用 
面向 对 象 编程 的 术语 来 表示 一 个 对 象 声 明 的 用 来 操作 对 象 的 动作 ， 这 是 我 们 在 Linux 内 核 
中 看 到 的 第 一 个 面向 对 象 编程 的 现象 ， 后 续 章 中 我 们 会 看 到 更 多 . 






























































传统 上 ， 一 个 file operation 结构 或 者 其 一 个 指针 称 为 fops ( 或 者 它 的 一 些 变 体 )， 结 
构 中 的 每 个 成 员 必 须 指向 驱动 中 的 函数 ， 这 些 函 数 实现 一 个 特别 的 操作 ， 或 者 对 于 不 支持 
的 操作 留置 为 NULL， 当 指定 为 NULL 指针 时 内 核 的 确切 的 行为 是 每 个 函数 不 同 的 ， 如 同 本 
节 后 面 的 列表 所 示 ， 











下 面 的 列表 介绍 了 一 个 应 用 程序 能 够 在 设备 上 调用 的 所 有 操作 .我 们 已 经 试图 保持 列表 简 
短 ， 这 样 它 可 作为 一 个 参考 ， 只 是 总 结 每 个 操作 和 在 NULL. 指针 使 用 时 的 缺 省 内 核 行为 . 











在 你 通读 file operations 方法 的 列表 时 ， 你 会 注意 到 不 少 参 数 包含 字 串 user. 这 种 
注解 是 一 种 文档 形式 ， 注 意 ， 一 个 指针 是 一 个 不 能 被 直接 解 引 用 的 用 户 空间 地 址 ， 对 于 正 
常 的 编译 ， ^ user 没有 效果 ， 但 是 它 可 被 外 部 检查 软件 使 用 来 找 出 对 用 户 空间 地 址 的 错误 
使 用 . 





























本 章 剩 下 的 部 分 ， 在 描述 一 些 其 他 重要 数据 结构 后 ， 解 释 了 最 重要 操作 的 角色 并 且 给 了 提 
示 ， 告 诚 和 真实 代码 例子 ， 我 们 推迟 讨论 更 复杂 的 操作 到 后 面 章 节 ， 因 为 我 们 还 不 准备 深 
入 如 内 存 管理 ， 阻 塞 操作 ， 和 有 异步 通知 . 

















struct module *owner 





第 一 个 file operations 成 员 根 本 不 是 一 个 操作 ; 它 是 一 个 指向 拥有 这 个 结构 的 模 
块 的 指针 ， 这 个 成 员 用 来 在 它 的 操作 还 在 被 使 用 时 阻止 模块 被 外 载 . 几乎 所 有 时 间 
中 ， 它 被 简单 初始 化 为 THIS_MODULE， 一 个 在 《linux/module.h> 中 定义 的 宏 . 





loff t (*llseek) (struct file *, loff t, int); 








llseek 方法 用 作 改 变 文件 中 的 当前 读 / 写 位 置 ， 并 且 新 位 置 作为 ( 正 的 ) 返回 值 . 
loff t 参数 是 一 个 “1ong offset“， 并 且 就 算 在 32 位 平台 上 也 至 少 64 位 宽 . 错 
误 由 一 个 负 返 回 值 指示 如果 这 个 函数 指针 是 NULL, seek 调用 会 以 潜在 地 无 法 预 
知 的 方式 修改 file 结构 中 的 位 置 计数 器 ( TE file 结构 ”一 节 中 描述 ). 



































ssize t (*read) (struct file *, char user *, size t, loff t *); 


用 来 从 设备 中 获取 数据 .在 这 个 位 置 的 一 个 空 指针 导致 read 系统 调用 以 - 
EINVAL (“Invalid argument”) 失败 . 一 个 非 负 返 回 值 代表 了 成 功 读 取 的 字 节 数 ( 返 
回 值 是 一 个 “signed size” 类型， 常常 是 目标 平台 本 地 的 整数 类 型 ). 








ssize t (*aio read) (struct kiocb *, char user *, size t, loff t); 
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初始 化 一 个 异步 读 — 可 能 在 函数 返回 前 不 结束 的 读 操 作 ， 如 果 这 个 方法 是 NULL, 
所 有 的 操作 会 由 read 代 蔡 进行 (同步 地 ). 











ssize t Ckwrite) (struct file *, const char user *, size t, loff t *); 


发 送 数据 给 设备 ， 如 果 NULL, -EINVAL 返回 给 调用 write 系统 调用 的 程序 ， 如 果 
非 负 ， 返 回 值 代表 成 功 写 的 字 节 数 . 








ssize t (kaio write) (struct kiocb *, const char user *, size t, loff t *); 
初始 化 设备 上 的 一 个 异步 写 . 

int Ckreaddir) (struct file *, void *, filldir t); 
对 于 设备 文件 这 个 成 员 应 当 为 NULL; 它 用 来 读 取 目 录 ， 并 且 仅 对 文件 系统 有 用 . 


unsigned int (*poll) (struct file *, struct poll table struct *); 





poll 方法 是 3 个 系统 调用 的 后 端 poll, epoll, M select， 都 用 作 查 询 对 一 个 
或 多 个 文件 描述 符 的 读 或 写 是 否 会 阻塞 . pol1 方法 应 当 返 回 一 个 位 掩 码 指示 是 否 非 
阻塞 的 读 或 写 是 可 能 的 ， 并 且 ， 可 能 地 ， 提 供给 内 核 信息 用 来 使 调用 进程 睡眠 直到 
1/0 变 为 可 能 ， 如 果 一 个 驱动 的 poll 方法 为 NULL， 设 备 假定 为 不 阻塞 地 可 读 可 写 . 









































int (kioctl) (struct inode *, struct file *, unsigned int, unsigned long); 





ioctl 系统 调用 提供 了 发 出 设备 特定 命令 的 方法 (例如 格式 化 软盘 的 一 个 磁道 ， 这 不 
是 读 也 不 是 写 )， 另 外 ， 几 个 ioctl 命令 被 内 核 识 别 而 不 必 引 用 fops x. 如 果 设 
备 不 提供 ioctl 方法 ， 对 于 任何 未 事先 定义 的 请 求 CENOTTY, “设备 无 这 样 的 
ioctl1”)， 系 统 调用 返回 一 个 错误 . 











int (Ckmmap) (struct file *, struct vm area struct *); 





mmap 用 来 请 求 将 设备 内 存 映 射 到 进程 的 地 址 空间 . 如 果 这 个 方法 是 NULL, mmap 系 
统 调用 返回 -ENODEV. 


int (kopen) (struct inode *, struct file *); 








尽管 这 常常 是 对 设备 文件 进行 的 第 一 个 操作 ， 不 要 求 驱 动 声明 一 个 对 应 的 方法 .如 
果 这 个 项 是 NULL， 设 备 打开 一 直 成 功 ， 但 是 你 的 驱动 不 会 得 到 通知 . 





int Ckflush) (struct file *); 


flush 操作 在 进程 关闭 它 的 设备 文件 描述 符 的 拷贝 时 调用 ; EINST OF HSERP 
设备 的 任何 未 完成 的 操作 ， 这 个 必须 不 要 和 用 户 查 询 请 求 的 fsync BERAT. 当 
前 ，flush 在 很 少 驱动 中 使 用 ; SCSI 磁带 驱动 使 用 它 ， 例 如 ， 为 确保 所 有 写 的 数据 
在 设备 关闭 前 写 到 人 磁带 上 ， WMR flush 为 NULL， 内 核 简单 地 忽略 用 户 应 用 程序 的 
请 求 . 
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int (*release) (struct inode *, struct file *); 





在 文件 结构 被 释放 时 引用 这 个 操作 ， 如 同 open, release 可 以 为 NULL. 


int Ckfsync) (struct file *, struct dentry *, int); 





这 个 方法 是 fsync 系统 调用 的 后 端 ， 用 户 调用 来 刷新 任何 挂 着 的 数据 ， 如果 这 个 指 
针 是 NULL， 系 统 调用 返回 -EINVAL. 





int (#aio fsync) (struct kiocb *, int); 





这 是 fsync 方法 的 异步 版 本 . 


int (*fasync) (int, struct file *, int); 








这 个 操作 用 来 通知 设备 它 的 FASYNC 标志 的 改变 ， 异 步 通知 是 一 个 高 级 的 主题 ， 在 
第 6 章 中 描述 ， 这 个 成 员 可 以 是 NULL 如 果 驱 动 不 支 持 异步 通知 . 








int Cklock) (struct file *, int, struct file lock *); 








lock 方法 用 来 实现 文件 加 锁 ; 加 锁 对 常规 文件 是 必 不 可 少 的 特性 ， 但 是 设备 驱动 几 
乎 从 不 实现 它 . 


ssize t (*readv) (struct file *, const struct iovec *, unsigned long, loff t *); 
ssize t (*writev) (struct file *, const struct iovec *, unsigned long, loff t *); 














这 些 方法 实现 发 散 /汇聚 读 和 写 操 作 ， 应 用 程序 偶尔 需要 做 一 个 包含 多 个 内 存 区 的 单 
个 读 或 写 操 作 ; 这 些 系统 调用 允许 它们 这 样 做 而 不 必 对 数据 进行 额外 拷贝 ， 如 果 这 
些 函 数 指针 为 NULL, read 和 write 方法 被 调用 ( 可 能 多 于 一 次 ). 





ssize t (ksendfile) (struct file x, loff t *, size t, read actor t, void *); 





这 个 方法 实现 sendfile 系统 调用 的 读 ， 使 用 最 少 的 拷贝 从 一 个 文件 描述 符 搬移 数 
据 到 另 一 个 ， 例 如 ， 它 被 一 个 需要 发 送 文件 内 容 到 一 个 网 络 连接 的 web 服务 器 使 用 . 
设备 驱动 常常 使 sendfile 为 NULL. 











ssize t (*sendpage) (struct file *, struct page *, int, size t, loff t *, int); 


sendpage 是 sendfile 的 另 一 半 ; 它 由 内 核 调 用 来 发 送 数据 ， 一 次 一 页 ， 到 对 应 的 
文件 ， 设备 驱动 实际 上 不 实现 sendpage. 





unsigned long (*get unmapped area) (struct file *, unsigned long, unsigned long, unsigned 
long, unsigned long); 
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这 个 方法 的 目的 是 在 进程 的 地 址 空间 找 一 个 合适 的 位 置 来 映射 在 底层 设备 上 的 内 存 
段 中 ， 这 个 任务 通 第 由 内 存 管理 代码 进行 ; 这 个 方法 存在 为 了 使 驱动 能 强制 特殊 设 
备 可 能 有 的 任何 的 对 齐 请 求 ， 大 部 分 驱动 可 以 置 这 个 方法 为 NULL. 7*7 
































int Ckcheck flags) (int) 





这 个 方法 允许 模块 检查 传递 给 fnctl(F SETEL...) 调用 的 标志 . 


int (*dir notify) (struct file *, unsigned long); 














这 个 方法 在 应 用 程序 使 用 fentl 来 请 求 目 录 改 变通 知 时 调用 ， 只 对 文件 系统 有 用 ; 
驱动 不 需要 实现 dir notify. 

















scull 设备 驱动 只 实现 最 重要 的 设备 方法 . 它 的 file operations 结构 是 如 下 初始 化 的 : 


struct file operations scull fops = ( 
.owner = THIS MODULE, 

.llseek = scull llseek, 

.read = scull read, 


.Write = scull write, 
.ioctl = scull ioctl, 
.open = scull open, 
.release = scull release, 


}; 




















这 个 声明 使 用 标准 的 标记 式 结 构 初 始 化 语法 . 这 个 语法 是 首选 的 ， 因 为 它 使 驱动 在 结构 
定义 的 改变 之 间 更 加 可 移植 ， 并 且 ， 有 人 争议 地 ， 使 代码 更 加 紧凑 和 可 读 ， 标记 式 初始 化 允 
许 结构 成 员 重 新 排序 ; 在 某 种 情况 下 ， 真 实 的 性 能 提高 已 经 实现 ， 通 过 安放 经 常 使 用 的 成 
员 的 指针 在 相同 硬件 高 速 存储 行 中 . 


3. 3. 2， 文 件 结构 
struct file， 定 义 于 《linux/fs.h>， 是 设备 驱动 中 第 二 个 最 重要 的 数据 结构 . 注意 file 


与 用 户 空间 程序 的 FILE 指针 没有 任何 关系 ,一 个 FILE 定义 在 C. 库 中 ， 从 不 出 现在 内 核 
代码 中 .一 个 struct file， 男 一 方面 ， 是 一 个 内 核 结构 ， 从 不 出 现在 用 户 程 序 中 . 


















































文件 结构 代表 一 个 打开 的 文件 。( 它 不 特定 给 设备 驱动 ;系统 中 每 个 打开 的 文件 有 一 个 关联 
的 struct file 在 内 核 空 间 )， 它 由 内 核 在 open 时 创建 ， 并 传递 给 在 文件 上 操作 的 任何 
函数 ， 直 到 最 后 的 关闭 .在 文件 的 所 有 实例 都 关闭 后 ， 内 核 释 放 这 个 数据 结构 . 














在 内 核 源码 中 ，struct file 的 指针 常常 称 为 file 或 者 filp( file pointer^). 我们 将 
一 直 称 这 个 指针 为 filp 以 避免 和 结构 自身 混淆 ， 因 此 ，file 指 的 是 结构 ， 而 filp 是 结 
构 指 针 . 























10 [10] ,.. 


注意 ，release 不 是 每 次 进程 调用 close 时 都 被 调用 . 无论 何 时 共享 一 个 文件 结构 (例如 ， 在 一 个 fork 或 dup 
之 后 ) release 不 会 调用 直到 所 有 的 拷贝 都 关闭 了 .如 果 你 需要 在 任 一 找 贝 关闭 时 刷新 挂 着 的 数据 ， 你 应 当 实 现 flush 
方法 . 
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struct file 的 最 重要 成 员 在 这 展示 .如 同 在 前 一 节 ， 第 一 次 阅读 可 以 跳 过 这 个 列表 . 但 
是 ， 在 本 章 后 面 ， 当 我 们 面 对 一 些 真 实 C 代码 时 ， 我 们 将 更 详细 讨论 这 些 成 员 . 








mode t f mode; 

















文件 模式 确定 文件 是 可 读 的 或 者 是 可 写 的 (或 者 都 是 )， 通 过 位 FMODE READ 和 
FMODE WRITE. 你 可 能 想 在 你 的 open 或 者 ioctl 函数 中 检查 这 个 成 员 的 读 写 许可 ， 
但 是 你 不 需要 检查 读 写 许 可 ， 因 为 内 核 在 调用 你 的 方法 之 前 检查 ， 当 文件 还 没有 为 
那 种 存 取 而 打开 时 读 或 写 的 企图 被 拒绝 ， 驱 动 甚至 不 知道 这 个 情况 . 




















loff t f pos; 


当前 读 写 位 置 ，1off_t 在 所 有 平台 都 是 64 位 ( 在 gcc 术语 里 是 long long ). 

驱动 可 以 读 这 个 值 ， 如 果 它 需要 知道 文件 中 的 当前 位 置 ， 但 是 正常 地 不 应 该 改变 它 ; 
读 和 写 应 当 使 用 它们 作为 最 后 参数 而 收 到 的 指针 来 更 新 一 个 位 置 ， 代 替 直 接 作用 于 
filp-^f pos， 这 个 规则 的 一 个 例外 是 在 llseek 方法 中 ， 它 的 目的 就 是 改变 文件 位 


EC 


B. 

















unsigned int f flags; 





这 些 是 文件 标志 ， 例 如 0 RDONLY, O NONBLOCK, 4 O SYNC. IEAA ARA 

O NONBLOCK 标志 来 看 是 否 是 请 求 非 阻塞 操作 ( 我 们 在 第 一 章 的 “阻塞 和 非 阻 塞 操作 ” 
一 节 中 讨论 非 阻塞 1/0 ); 其 他 标志 很 少 使 用 .特别 地 ， 应 当 检 查 读 / 写 许可 ， 使 用 
f mode 而 不 是 f flags. 所 有 的 标志 在 头 文 件 《linux/fcnt1.h> PENX. 














struct file operations *f op; 


和 文件 关联 的 操作 ， 内 核 安 排 指针 作为 它 的 open 实现 的 一 部 分 ， 接 着 读 取 它 当 它 
需要 分 派 任 何 的 操作 时 .filp->f_op 中 的 值 从 不 由 内 核 保存 为 后 面 的 引用 ; 这 意味 
着 你 可 改变 你 的 文件 关联 的 文件 操作 ， 在 你 返回 调用 者 之 后 新 方法 会 起 作用 ， 例 如 ， 
关联 到 主编 号 1 (/dev/null, /dev/zero, S) AY open 代码 根据 打开 的 次 编号 来 
THX filpOf op 中 的 操作 ， 这 个 做 法 允许 实现 几 种 行为 ， 在 同一 个 主编 号 下 而 不 
必 在 每 个 系统 调用 中 引入 开销 ， 替 换文 件 操作 的 能 力 是 面向 对 象 编 程 的 “方法 重 载 ” 
的 内 核对 等 体 . 

















void *private data; 








open 系统 调用 设置 这 个 指针 为 NULL， 在 为 驱动 调用 open 方法 之 前 ， 你 可 自由 使 
用 这 个 成 员 或 者 忽略 它 ;， 你 可 以 使 用 这 个 成 员 来 指向 分 配 的 数据 ， 但 是 接着 你 必须 
记 住 在 内 核 销毁 文件 结构 之 前 ， 在 release 方法 中 释放 那个 内 存 . private data 
是 一 个 有 用 的 资源 ， 在 系统 调用 间 保 留 状态 信息 ， 我 们 大 部 分 例子 模块 都 使 用 它 . 























struct dentry *f dentry; 











关联 到 文件 的 目录 入 口 ( dentry ) 结构 .设备 驱动 编写 者 正常 地 不 需要 关心 dentry 
结构 ， 除 了 作为 filp-^f dentry—d inode 存 取 inode 结构 . 











Ne 
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真实 结构 有 多 几 个 成 员 ， 但 是 它们 对 设备 驱动 没有 用 处 ， 我们 可 以 安全 地 忽略 这 些 成 员 ， 
因为 驱动 从 不 创建 文件 结构 ; 它们 真实 存 取 别 处 创建 的 结构 . 

















3.3.3. inode 结构 





inode 结构 由 内 核 在 内 部 用 来 表示 文件 ， 因此， 它 和 代表 打开 文件 描述 符 的 文件 结构 是 不 
同 的 ， 可 能 有 代表 单个 文件 的 多 个 打开 描述 符 的 许多 文件 结构 ， 但 是 它们 都 指向 一 个 单个 
inode 结构 . 











nu 





Y 











inode 结构 包含 大 量 关 于 文件 的 信息 ， 作 为 一 个 通用 的 规则 ， 这 个 结构 只 有 2 个 成 员 对 于 
编写 驱动 代码 有 用 : 








dev t i rdev; 





对 于 代表 设备 文件 的 节点 ， 这 个 成 员 包含 实际 的 设备 编号 . 


struct cdev *i _ cdev 





struct cdev 是 内 核 的 内 部 结构 ， 代 表 字 符 设备 ; 这 个 成 员 包含 一 个 指针 ， 指 向 这 
个 结构 ， 当 节点 指 的 是 一 个 字符 设备 文件 时 . 








i rdev 类 型 在 2.5 开发 系列 中 改变 了 ， 和 破坏 了 大 量 的 驱动 ， 作 为 一 个 或 励 更 可 移植 编程 
的 方法 ， 内 核 开发 者 已 经 增加 了 2 个 宏 ， 可 用 来 从 一 个 inode 中 获取 主 次 编号 : 























unsigned int iminor(struct inode *inode); 
unsigned int imajor(struct inode *inode); 











为 了 不 要 被 下 一 次 改动 抓 住 ， 应 当 使 用 这 些 宏 代 符 直接 操作 irdev. 
3. 4， 字 符 设 备注 册 
如 我 们 提 过 的 ， 内 核 在 内 部 使 用 类 型 struct cdev 的 结构 来 代表 字符 设备 ， 在 内 核 调 用 你 


的 设备 操作 前 ， 你 编写 分 配 并 注册 一 个 或 几 个 这 些 结构 ， "为 此 ， 你 的 代码 应 当 包 含 
Xinux/cdev. h>， 这 个 结构 和 它 的 关联 帮助 函数 定义 在 这 里 . 






































有 2 种 方法 来 分 配 和 初始 化 一 个 这 些 结构 .如果 你 想 在 运行 时 获得 一 个 独立 的 cdev 结构 ， 
你 可 以 为 此 使 用 这 样 的 代码 : 





struct cdev *my cdev = cdev alloc(); 
my cdev-?^ops = &my fops; 








但 是 ， 偶 尔 你 会 想 将 cdev 结构 嵌入 一 个 你 自己 的 设备 特定 的 结构 ; scull 这 样 做 了 ， 在 
这 种 情况 下 ， 你 应 当初 始 化 你 已 经 分 配 的 结构 ， 使 用 : 

































































”有 一 个 早 些 的 机 制 以 避免 使 用 cdev 结构 (我们 在 “ 老 方法 ”一 节 中 讨论 ). 但 是 ， 新 代码 应 当 使 用 新 技术 
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void cdev init(struct cdev *cdev, struct file operations *fops); 











任 一 方法 ， 有 一 个 其 他 的 struct cdev 成 员 你 需要 初始 化 . $& file operations 结构 ， 
struct cdev 有 一 个 拥有 者 成 员 ， 应 当 设 置 为 THIS MODULE. —H. cdev 结构 建立 ， 最 后 
的 步骤 是 把 它 告诉 内 核 ， 调 用 : 








int cdev add(struct cdev *dev, dev t num, unsigned int count); 








XE, dev 是 cdev 结构 ，num 是 这 个 设备 响应 的 第 一 个 设备 号 ，count 是 应 当 关 联 到 设 
备 的 设备 号 的 数目 .常常 count 是 1， 但 是 有 多 个 设备 号 对 应 于 一 个 特定 的 设备 的 情形 . 
例如 ， 设 想 SCSI 磁带 驱动 ， 它 允许 用 户 空 间 来 选择 操作 模式 (例如 密度 )， 通 过 安排 多 个 
次 编写 给 每 一 个 物理 设备 . 























在 使 用 cdev add 是 有 几 个 重要 事情 要 记 住 . 第 一 个 是 这 个 调用 可 能 失败 如 果 它 返回 一 
个 负 的 错误 码 ， 你 的 设备 没有 增加 到 系统 中 .， 它 几乎 会 一 直 成 功 ， 但 是 ， 并 且 带 起 了 其 他 
的 点 : cdev_add 一 返回 ， 你 的 设备 就 是 ” 活 的 “并 且 内 核 可 以 调用 它 的 操作 .除非 你 的 驱动 
完全 准备 好 处 理 设备 上 的 操作 ， 你 不 应 当 调 用 cdev_add. 























为 从 系统 去 除 一 个 字符 设备 ， 调 用 : 


void cdev del(struct cdev *dev); 





显然 ， 你 不 应 当 在 传递 给 cdev del 后 存 取 cdev 结构 . 
3.4.1. scull 中 的 设备 注册 


在 内 部 ，scull 使 用 一 个 struct scull dev 类 型 的 结构 表示 每 个 设备 ， 这 个 结构 定义 为 : 

















struct scull dev { 

struct scull qset *data; /* Pointer to first quantum set */ 
int quantum; /* the current quantum size */ 

int qset; /* the current array size */ 

unsigned long size; /* amount of data stored here */ 

unsigned int access key; /* used by sculluid and scullpriv */ 
struct semaphore sem; /* mutual exclusion semaphore */ 
struct cdev cdev; /* Char device structure */ 


Hh 








我 们 在 过 到 它们 时 讨论 结构 中 的 各 个 成 员 ， 但 是 现在 ， 我 们 关注 于 cdev， 我 们 的 设备 与 内 
核 接口 的 struct cdev. 这 个 结构 必须 初始 化 并 且 如 上 所 述 添加 到 系统 中 ; 处 理 这 个 任务 
的 scull 代码 是 : 








static void scull setup cdev(struct scull dev *dev, int index) 


{ 


int err, devno = MKDEV (scull major, scull minor + index); 


cdev_init(&dev->cdev, &scull fops); 
dev-?cdev. owner = THIS MODULE; 
dev-?cdev.ops = &scull fops; 

err = cdev add (&dev-^cdev, devno, 1); 
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/* Fail gracefully if need be */ 
if (err) 
printk(KERN NOTICE "Error %d adding scull*d/, err, index); 
) 








因为 cdev IÆ struct scull dev Æi, cdev init 必须 调用 来 进行 那个 结构 的 初 
始 化 . 


3. 4. 2， 老 方法 


如 果 你 深入 浏览 2.6 内 核 的 大 量 驱 动 代码 ， 你 可 能 注意 到 有 许多 字符 驱动 不 使 用 我 们 刚刚 
描述 过 的 cdev 接口 ， 你 见 到 的 是 还 没有 更 新 到 2.6 内 核 接 口 的 老 代码 ， 因 为 那个 代码 实 
际 上 能 用 ， 这 个 更 新 可 能 很 长 时 间 不 会 发 生 . 为 完整 ， 我 们 描述 老 的 字符 设备 注册 接口 ， 
但 是 新 代码 不 应 当 使 用 它 ;， 这 个 机 制 在 将 来 内 核 中 可 能 会 消失 . 












































注册 一 个 字符 设备 的 经 典 方法 是 使 用 : 


int register chrdev(unsigned int major, const char *name, struct 
file operations **fops); 


XE, major 是 感 兴 趣 的 主编 号 ，name 是 驱动 的 名 子 (出 现在 /proc/devices), fops 是 
缺 省 的 file operations 结构 .一 个 对 register chrdev 的 调用 为 给 定 的 主编 号 注册 0 
- 255 的 次 编号 ， 并 且 为 每 一 个 建立 一 个 缺 省 的 cdev 结构 ， 使 用 这 个 接口 的 驱动 必须 准 
备 好 处 理 对 所 有 256 个 次 编号 的 open 调用 ( 不 管 它们 是 否 对 应 真实 设备 )， 它 们 不 能 使 
用 大 于 255 的 主 或 次 编号 . 















































如 果 你 使 用 register_chrdev， 从 系统 中 去 除 你 的 设备 的 正确 的 函数 是 : 








int unregister chrdev(unsigned int major, const char *name); 


major 和 name 必须 和 传递 给 register chrdev 的 相同 ， 否 则 调用 会 失败 . 





3.5. open 和 release 





到 此 我 们 已 经 快速 浏览 了 这 些 成 员 ， 我 们 开始 在 真实 的 scull 函数 中 使 用 它们 . 


3.5.1. open 方法 





open 方法 提供 给 驱动 来 做 任何 的 初始 化 来 准备 后 续 的 操作 ， 在 大 部 分 驱动 中 ，open 应 当 
进行 下 面 的 工作 : 


检查 设备 特定 的 错误 (例如 设备 没准 备 好 ， 或 者 类 似 的 硬件 错误 
如 果 它 第 一 次 打开 ， 初 始 化 设备 

如 果 需 要 ， 更 新 f op 指针 . 

分 配 并 填充 要 放 进 filp->private_data 的 任何 数据 结构 


























Au M, B 
P R AE 














但 是 ， 事 情 的 第 





zu 


前 定 打 开 哪 个 设备 ， 记 住 open 方法 的 原型 是 : 





$i 
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int Ckopen) (struct inode *inode, struct file *filp); 








inode 参数 有 我 们 需要 的 信息 , 以 它 的 i cdev 成 员 的 形式 ， 里 面包 含 我 们 之 前 建立 的 
cdev 结构 ， 唯 一 的 问题 是 通常 我 们 不 想 要 cdev 结构 本 身 ， 我 们 需要 的 是 包含 cdev 结构 
的 scull dev 结构 . C 语言 使 程序 员 玩 弄 各 种 技巧 来 做 这 种 转换 ;但 是 ， 这 种 技巧 编程 是 
易 出 错 的 ， 并 且 导 致 别人 难于 阅读 和 理解 代码 . 和 幸运 的 是 ， 在 这 种 情况 下 ， 内 核 hacker 
已 经 为 我 们 实现 了 这 个 技巧 ， 以 container of 宏 的 形式 ， 在 《linux/kernel.h> 中 定义 : 
































container of(pointer, container type, container field); 





这 个 宏 使 用 一 个 指向 container field 类 型 的 成 员 的 指针 ， 它 在 一 个 container type 类 
型 的 结构 中 ， 并 且 返 回 一 个 指针 指向 包含 结构 ， 在 scull_open， 这 个 宏 用 来 找到 适当 的 设 
备 结构 : 











struct scull dev *dev; /* device information */ 
dev = container of(inode-^i cdev, struct scull dev, cdev); 
filp-^private data = dev; /* for other methods */ 


一 旦 它 找到 scull dev 结构 ，scull 在 文件 结构 的 private data 成 员 中 存储 一 个 它 的 指 
针 ， 为 以 后 更 易 存 取 . 








识别 打开 的 设备 的 另外 的 方法 是 查看 存储 在 inode 结构 的 次 编号 ， 如 果 你 使 用 
register chrdev 注册 你 的 设备 ， 你 必须 使 用 这 个 技术 .确认 使 用 iminor 从 inode 结构 
中 获取 次 编号， 并 且 确 定 它 对 应 一 个 你 的 驱动 真正 准备 好 处 理 的 设备 . 















































scull open 的 代码 (稍微 简化 过 ) 是 : 





int scull open(struct inode *inode, struct file *filp) 

{ 
struct scull dev *dev; /* device information */ 
dev = container of(inode-^i cdev, struct scull dev, cdev); 
filp-^private data = dev; /* for other methods */ 


/* now trim to 0 the length of the device if open was write-only */ 
if ( (filp-^f flags & 0 ACCMODE) == 0 WRONLY) 
{ 
scull trim(dev); /* ignore errors */ 
) 
return 0; /* success */ 


) 








AREER KAM, AAEH open 时 它 没有 做 任何 特别 的 设备 处 理 ， 它 不 需要 ， 因 为 
scull 设备 设计 为 全 局 的 和 永久 的 .特别 地 ， 没 有 如 “在 第 一 次 打开 时 初始 化 设备 ”等 动作 ， 
因为 我 们 不 为 scull 保持 打开 计数 . 





唯一 在 设备 上 的 真实 操作 是 当 设备 为 写 而 打开 时 将 它 截 取 为 长 度 为 0。 这 样 做 是 因为 ， 在 
设计 上 ， 用 一 个 短 的 文件 覆盖 一 个 scull 设备 导致 一 个 短 的 设备 数据 区 ， 这 类 似 于 为 写 而 
打开 一 个 常规 文件 ， 将 其 截 短 为 0， 如 果 设 备 为 读 而 打开 ， 这 个 操作 什么 都 不 做 . 
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在 我 们 查看 其 他 scull 特性 的 代码 时 将 看 到 一 个 真实 的 初始 化 如 何 起 作用 的 . 


3.5.2. release 方法 








release 方法 的 角色 是 open 的 反面 . 有 时 你 会 发 现 方法 的 实现 称 为 device close, 而 不 
是 device_release， 任 一 方式 ， 设 备 方法 应 当 进 行 下 面 的 任务 : 























。 释放 open 分 配 在 filp->private data 中 的 任何 东西 
。 在 最 后 的 close 关闭 设备 








scull 的 基本 形式 没有 硬件 去 关闭 ， 因 此 需要 的 代码 是 最 少 的 :5 


int scull release(struct inode *inode, struct file *filp) 
{ 
return 0; 


} 


你 可 能 想 知道 当 一 个 设备 文件 关闭 次 数 超过 它 被 打开 的 次 数 会 发 生 什么 ， 毕 竞 ，dup 和 
fork 系统 调用 不 调用 open 来 创建 打开 文件 的 拷贝 ， 每 个 拷贝 接着 在 程序 终止 时 被 关闭 . 
例如 ， 大 部 分 程序 不 打开 它们 的 stdin 文件 (或 设备 )， 但 是 它们 都 以 关闭 它 结束 ， 当 一 个 
打开 的 设备 文件 已 经 真正 被 关闭 时 驱动 如 何 知道 ? 











答案 简单 : 不 是 每 个 close 系统 调用 引起 调用 release 方法 . 只 有 真正 释放 设备 数据 结 
构 的 调用 会 调用 这 个 方法 一 因此 得 名 .内 核 维 持 一 个 文件 结构 被 使 用 多 少 次 的 计数 . 
fork 和 dup 都 不 创建 新 文件 (只 有 open 这 样 ) ; 它们 只 递增 正 存 在 的 结构 中 的 计数 . 
close 系统 调用 仪 在 文件 结构 计数 掉 到 0 时 执行 release 方法 ， 这 在 结构 被 销毁 时 发 生 . 
release 方法 和 close 系统 调用 之 间 的 这 种 关系 保证 了 你 的 驱动 一 次 open 只 看 到 一 次 


release. 



































注意 ，flush 方法 在 每 次 应 用 程序 调用 close 时 都 被 调用 . 但 是 ， 很 少 驱 动 实现 flush, 
因为 常常 在 close 时 没有 什么 要 做 ， 除 非 调用 release. 

















如 你 会 想到 的 ， 前 面 的 讨论 即便 是 应 用 程序 没有 明显 地 关闭 它 打开 的 文件 也 适用 : 内 核 在 
进程 exit 时 自动 关闭 了 任何 文件 ， 通 过 在 内 部 使 用 close 系统 调用 . 


3.6. scull 的 内 存 使 用 


在 介绍 读 写 操作 前 ， 我 们 最 好 看 看 如 何以 及 为 什么 scull 进行 内 存 分 配 . “如 何 “ 是 需要 全 
面 理解 代码 ，“ 为 什么 "演示 了 驱动 编写 者 需要 做 的 选择 ， 尽 管 scull 明确 地 不 是 典型 设备 . 
























































本 节 只 处 理 scull 中 的 内 存 分 配 策略 ， 不 展示 给 你 编写 真正 驱动 需要 的 人 硬件 管理 技能 ， 这 
些 技能 在 第 9 章 和 第 10 章 介 绍 ， 因此， 你 可 跳 过 本 章 ， 如 果 你 不 感 兴趣 于 理解 面向 内 存 
的 scull 驱动 的 内 部 工作 . 

















12 [12 

















时 他 风味 的 设备 由 不 同 的 函数 关闭 ， 因 为 scull_open 为 每 个 设备 替换 了 不 同 的 filp->f_op， 我 们 在 介绍 每 种 风 
味 时 再 讨论 它们 . 
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scull 使 用 的 内 存 区 ， 也 称 为 一 个 设备 ， 长 度 可 变 ， 你 写 的 越 多 ， 它 增长 越 多 ; 通过 使 用 
一 个 短文 件 黎 盖 设备 来 进行 修整 








scull 驱动 引入 2 个 核心 函数 来 管理 Linux 内 核 中 的 内 存 ， 这 些 函 数 ， 定 义 在 
<linux/slab. h>, Æ: 





void *kmalloc(size t size, int flags); 
void kfree(void *ptr); 


对 kmalloc 的 调用 试图 分 配 size E IE; 返回 值 是 指向 那个 内 存 的 指针 或 者 如 果 分 
BUSCA NULL. flags 参数 用 来 描述 内 存 应 当 如 何 分 配 ; 我 们 在 第 S 章 详 细 查 看 这 些 标 
m. 对 于 现在 ， 我 们 一 直 使 用 GEP KERNEL. 分配 的 内 存 应 当 用 kfree 来 释放 .， 你 应 当 从 
不 传递 任何 不 是 从 kmalloc 获得 的 东西 给 kfree. 但是， 传递 一 个 NULL 指针 给 kfree 
是 合法 的 . 









































kmalloc 不 是 最 有 效 的 分 配 大 内 存 区 的 方法 ( 见 第 8 章 )， 所 以 挑选 给 scull 的 实现 不 是 
一 个 特别 巧妙 的 ， 一 个 巧妙 的 源码 实现 可 能 更 难 阅读 ， 而 本 节 的 目标 是 展示 读 和 写 ， 不 是 
内 存 管理 ， 这 是 为 什么 代码 只 是 使 用 kmalloc 和 kfree 而 不 依靠 整 页 的 分 配 ， 尽 管 这 个 
方法 会 更 有 效 . 









































在 flip 一 边 ， 我 们 不 想 限 制 “ 设 备 ” 区 的 大 小 ， 由 于 理论 上 的 和 实践 上 的 理由 . 理论 上 ， 

给 在 被 管理 的 数据 项 施加 武断 的 限制 总 是 个 坏 想 法 .实践 上 ，scull 可 用 来 暂时 地 吃 光 你 
系统 中 的 内 存 ， 以 便 运行 在 低 内 存 条 件 下 的 测试 ， 运 行 这 样 的 测试 可 能 会 帮助 你 理解 系统 
的 内 部 .你 可 以 使 用 命令 cp /dev/zero /dev/scullO0 来 用 scull 吃 掉 所 有 的 真实 RAM, 
并 且 你 可 以 使 用 dd 工具 来 选择 贝多 少数 据 给 scull 设备 . 






































在 scul1， 每 个 设备 是 一 个 指针 链表 ， 每 个 都 指向 一 个 scull_dev 结构 .每 个 这 样 的 结构 ， 
缺 省 地 ， 指 向 最 多 4 兆 字 他， 通过 一 个 中 间 指 针 数 组 ， 发 行 代码 使 用 一 个 1000 个 指针 的 
数组 指向 每 个 4000 字 节 的 区 域 .我 们 称 每 个 内 存 区 域 为 一 个 量子 ， 数 组 (或 者 它 的 长 度 ) 
为 一 个 量子 集 ， 一 个 scull 设备 和 它 的 内 存 区 如 图 一 个 scull 设备 的 布局 所 示 . 




















图 3.1. —^* scull 设备 的 布局 















































Scull, devicd 
Scull qset Scull qset 
Next | | 
Data (end of list) 
| Quantum 
Quantum Quantum 
Quantum Quantum 
Quantum Quantum 
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选 定 的 数字 是 这 样 ， 在 scull 中 写 单个 一 个 字 节 消耗 8000 或 12,000 KB 内 存 : 4000 是 
量子 ，4000 或 者 8000 是 量子 集 ( 根 据 指针 在 目标 平台 上 是 用 32 位 还 是 64 位 表示 ). 相 
反 ， 如 果 你 写 入 大 量 数据 ， 链 表 的 开销 不 是 太 坏 . 每 4 MB 数据 只 有 一 个 链表 元 素 ， 设 备 
的 最 大 尺寸 受 限于 计算 机 的 内 存 大 小 . 

















为 量子 和 量子 集 选择 合适 的 值 是 一 个 策略 问题 ， 而 不 是 机 制 ， 并 且 优化 的 值 依赖 于 设备 如 
何 使 用 ， 因 此 ，scull 驱动 不 应 当 强 制 给 量子 和 量子 集 使 用 任何 特别 的 值 ， 在 scull 中 ， 
用 户 可 以 掌管 改变 这 些 值 ， 有 几 个 途径 :编译 时 间 通 过 改变 scull.h 中 的 宏 

SCULL QUANTUM 和 SCULL QSET， 在 模块 加 载 时 设 定 整数 值 scull quantum 和 scull qset, 
或 者 使 用 ioctl 在 运行 时 改 恋 当 前 值 和 缺 省 值 . 















































使 用 宏 定义 和 一 个 整数 值 来 进行 编译 时 和 加 载 时 配置 ， 是 对 于 如 何 选择 主编 号 的 回忆 . 我 
们 在 驱动 中 任何 与 策略 相关 或 专断 的 值 上 运用 这 个 技术 . 











余下 的 唯一 问题 是 如 果 选 择 缺 省 值 ， 在 这 个 特殊 情况 下 ， 问 题 是 找到 最 好 的 平衡 ， 由 填充 
了 一 半 的 量子 和 量子 集 导 致 内 存 浪费 ， 如 果 量 子 和 量子 集 小 的 情况 下 分 配 释放 和 指针 连接 
引起 开销 ， 另 外 ，kmalloc 的 内 部 设计 应 当 考 虑 进去 . (现在 我 们 不 退 求 这 点 ， 不 过 ; 
kmalloc 的 内 部 在 第 8 ERR.) 缺 省 值 的 选择 来 日 假设 测试 时 可 能 有 大 量 数 据 写 进 
scull， 尽 管 设备 的 正常 使 用 最 可 能 只 传送 几 KB 数据 . 






























































我 们 已 经 见 过 内 部 代表 我 们 设备 的 scull_dev 结构 .结构 的 quantum 和 qset 分 别 代表 
设备 的 量子 和 量子 集 大 小 ， 实 际 数据 ， 但 是 ， 是 由 一 个 不 同 的 结构 跟踪 ， 我 们 称 为 struct 


scull qset: 

















struct scull qset { 
void ***data; 
struct scull qset *next; 


E 


下 一 个 代码 片段 展示 了 实际 中 struct scull dev 和 struct scull qset 是 如 何 被 用 来 持 
有 数据 的 . sucll trim 函数 负责 释放 整个 数据 区 ， 由 scull open 在 文件 为 写 而 打开 时 调 
Hj. 它 简 单 地 过 历 列 表 并 且 释 放 它 发 现 的 任何 量子 和 量子 集 . 




















int scull trim(struct scull dev *dev) 
{ 
struct scull qset *next, **dptr; 
int qset = dev->qset; /* "dev" is not-null */ 
int i; 
for (dptr = dev->data; dptr; dptr = next) 
{ /* all the list items */ 
if (dptr-^»data) { 
for (i = 0; i € qset; i++) 
kfree(dptr-^data[il); 
kfree(dptr-^data); 
dptr-»data = NULL; 
) 


next = dptr-?next; 
kfree (dptr) ; 
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dev-?size = 0; 
dev->quantum = scull quantum; 
dev-?5qset = scull qset; 
dev->data = NULL; 
return 0; 


} 





scull trim 也 用 在 模块 清理 函数 中 ， 来 归还 scull 使 用 的 内 存 给 系统 . 


3.7. RAS 


读 和 写 方法 都 进行 类 似 的 任务 ， 就 是 ， 从 和 到 应 用 程序 代码 拷贝 数据 因此， 它们 的 原型 
相当 相似 ， 可 以 同时 介绍 它们 : 














ssize t read(struct file *filp, char user *buff, size t count, loff t *offp); 
ssize t write(struct file *filp, const char user *buff, size t count, loff t *offp); 





对 于 2 个 方法 ，filp 是 文件 指针 ，count 是 请 求 的 传输 数据 大 小 . buff 参数 指向 持 有 被 
写 入 数据 的 缓存 ， 或 者 放 入 新 数据 的 空 缓存 ， 最 后 ，offp 是 一 个 指针 指向 一 个 “1ong 
offset type” 对 象 ， 它 指出 用 户 正在 存 取 的 文件 位 置 ， 返 回 值 是 一 个 ^signed size type”; 
它 的 使 用 在 后 面 讨论 . 





让 我 们 重复 一 下 ，read 和 write 方法 的 buff 参数 是 用 户 空间 指针 ， 因 此 ， 它 不 能 被 内 
核 代码 直接 解 引用 ， 这 个 限制 有 几 个 理由 : 








。 依赖 于 你 的 驱动 运行 的 体系 ， 以 及 内 核 被 如何 配 置 的， 用 户 空 间 指针 当 运 行 于 内 核 
模式 可 能 根本 是 无 效 的 ， 可 能 没有 那个 地 址 的 映射 ， 或 者 它 可 能 指向 一 些 其 他 的 随 
机 数据 . 

。 就 算 这 个 指针 在 内 核 空 间 是 同样 的 东西 ， 用 户 空间 内 存 是 分 页 的 ， 在 做 系统 调用 时 
这 个 内 存 可 能 没有 在 RAM 中 .试图 直接 引用 用 户 空间 内 存 可 能 产生 一 个 页 面 错 ， 这 
是 内 核 代码 不 允许 做 的 事情 .结果 可 能 是 一 个 oops"， 导 人 臻 进行 系统 调用 的 进程 死 
P. 

。 和 置疑 中 的 指针 由 一 个 用 户 程序 提供 ， 它 可 能 是 错误 的 或 者 恶意 的 .如 果 你 的 驱动 盲 
目地 解 引用 一 个 用 户 提 供 的 指针 ， 它 提供 了 一 个 打开 的 门路 使 用 户 空间 程序 存 取 或 
覆盖 系统 任何 地 方 的 内 存 ， 如 果 你 不 想 负 责 你 的 用 户 的 系统 的 安全 人 危险， 你 就 不 能 
直接 解 引用 用 户 空 间 指针 . 



































显然 ， 你 的 驱动 必须 能 够 存 取 用 户 空间 缓存 以 完成 它 的 工作 . 但是， 为 安全 起 见 这 个 存 取 
必须 使 用 特殊 的 ， 内 核 提 供 的 函数 . 我们 介绍 几 个 这 样 的 函数 (定义 于 Xasm/uaccess. h>), 
剩 下 的 在 第 一 章 “ 使 用 ioctl 参数 一 节 中 .它们 使 用 一 些 特殊 的 ， 依 赖 体系 的 技巧 来 确保 
内 核 和 用 户 空间 的 数据 传输 安全 和 正确 . 
































scull 中 的 读 写 代码 需要 拷贝 一 整 段 数据 到 或 者 从 用 户 地 址 空间 ， 这 个 能 力 由 下 列 内 核 函 
数 提供 ， 它 们 拷贝 一 个 任意 的 字 节 数组 ， 并 且 位 于 大 部 分 读 写 实现 的 核心 中 . 


unsigned long copy to user(void user *to,const void *from, unsigned long count); 
unsigned long copy from user(void *to, const void user *from,unsigned long count); 
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尽管 这 些 函 数 表现 象 正 常 的 memepy 函数 ， 必 须 加 一 点 小 心 在 从 内 核 代码 中 存 取 用 户 空间 . 
寻 址 的 用 户 也 当前 可 能 不 在 内 存 ， 虚 拟 内 存 子 系统 会 使 进程 睡眠 在 这 个 页 被 传送 到 位 时 . 
例如 ， 这 发 生 在 必须 从 交换 空间 获取 页 的 时 候 . 对 于 驱动 编写 者 来 说 ， 最 终结 果 是 任何 存 
取 用 户 空 间 的 函数 必须 是 可 重 入 的 ， 必 须 能 够 和 其 他 驱动 函数 并 行 执行 ， 并 且 ， 特 别 的 ， 
必须 在 一 个 它 能 够 合法 地 睡眠 的 位 置 .我 们 在 第 5 章 再 回 到 这 个 主题 . 


























这 2 个 函数 的 角色 不 限于 拷贝 数据 到 和 从 用 户 空间 : 它们 还 检查 用 户 空间 指针 是 否 有 效 . 

如 果 指 针 无 效 ， 不 进行 拷贝 ， 如 果 在 找 贝 中 遇 到 一 个 无 效 地 址 ， 另 一 方面 ， 只 拷贝 部 分 数 
js. 在 2 种 情况 下 ， 返 回 值 是 还 要 拷贝 的 数据 量 . scull 代码 查看 这 个 错误 返回 ， 并 且 如 
果 它 不 是 0 就 返回 -EFAULT 给 用 户 . 























用 户 空 间 存 取 和 无 效用 户 空间 指针 的 主题 有 些 高 级 ， 在 第 6 章 讨 论 . 然而 ， 值 得 注意 的 是 
如 果 你 不 需要 检查 用 户 空间 指针 ， 你 可 以 调用 — copy to user 和 _ copy_from user 来 
代替 .这 是 有 用 处 的 ， 例 如 ， 如 果 你 知道 你 已 经 检查 了 这 些 参 数 ， 但 是， 要 小 心 ; 事实 上 ， 
如 果 你 不 检查 你 传递 给 这 些 函 数 的 用 户 空间 指针 ， 那 么 你 可 能 造成 内 核 朋 演 和 /或 安全 漏洞 . 























至 于 实际 的 设备 方法 ，read 方法 的 任务 是 从 设备 拷贝 数据 到 用 户 空间 (使 用 
copy to user), m write 方法 必须 从 用 户 空 间 找 贝 数据 到 设备 (使 用 copy from user). 
每 个 read 或 write 系统 调用 请 求 一 个 特定 数目 字 节 的 传送 ， 但 是 驱动 可 自由 传送 较 少数 
据 -- 对 读 和 写 这 确切 的 规则 稍微 不 同 ， 在 本 章 后 面 描述 . 




















不 管 这 些 方法 传送 多 少数 据 ， 它 们 通常 应 当 更 新 *offp 中 的 文件 位 置 来 表示 在 系统 调用 成 
功 完成 后 当前 的 文件 位 置 .内 核 接 着 在 适当 时 候 传 播 文 件 位 置 的 改变 到 文件 结构 .pread 

和 pwrite 系统 调用 有 不 同 的 语义 ; 它们 从 一 个 给 定 的 文件 侦 移 操作 ， 并 且 不 改变 其 他 的 
系统 调用 看 到 的 文件 位 置 ， 这 些 调用 传递 一 个 指向 用 户 提供 的 位 置 的 指针 ， 并 且 放 弃 你 的 
驱动 所 做 的 改变 . 














图 给 read 的 参数 表示 了 一 个 典型 读 实 现 是 如 何 使 用 它 的 参数 . 





图 3.2. 给 read 的 参数 





ssize t dev read(struct file *file, char *buf 
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read 和 write 方法 都 在 发 生 错误 时 返回 一 个 负 值 ， 相反 ， 大 于 或 等 于 0 的 返回 值 告知 调 
用 程序 有 多 少 字 节 已 经 成 功 传送 ， 如 果 一 些 数据 成 功 传送 接着 发 生 错误 ， 返 回 值 必须 是 成 
功 传送 的 字 节 数 ， 错 误 不 报告 直到 函数 下 一 次 调用 .实现 这 个 传统 ， 当 然 ， 要 求 你 的 驱动 
记 住 错误 已 经 发 生 ， 以 便 它 们 可 以 在 以 后 返回 错误 状态 . 




















尽管 内 核 函 数 返回 一 个 负数 指示 一 个 错误 ， 这 个 数 的 值 指出 所 发 生 的 错误 类 型 ( 如 第 2 章 
介绍 )， 用 户 空间 运行 的 程序 常常 看 到 -1 作为 错误 返回 值 ， 它们 需要 存 取 errno 变量 来 
找 出 发 生 了 什么 ， 用户 空间 的 行为 由 POSIX 标准 来 规定 ， 但 是 这 个 标准 没有 规定 内 核 内 部 
如 何 操作 . 





























3.7.1. read 方法 


read 的 返回 值 由 调用 的 应 用 程序 解释 : 





。 如 果 这 个 值 等 于 传递 给 read 系统 调用 的 count 参数 ， 请 求 的 字 节 数 已 经 被 传送 . 
这 是 最 好 的 情况 . 

。 如 果 是 正 数 ， 但 是 小 于 count， 只 有 部 分 数据 被 传送 ， 这 可 能 由 于 几 个 原因 ， 依 赖 
于 设备 ， 常 常 ， 应 用 程序 重新 试 着 读 取 . 例如 ， 如 果 你 使 用 fread 函数 来 读 取 ， 库 
函数 重新 发 出 系统 调用 直到 请 求 的 数据 传送 完成 . 

。 如 果 值 为 0， 到 达 了 文件 末尾 (没有 读 取 数据 ). 

。 一 个 负 值 表示 有 一 个 错误 . 这 个 值 指 出 了 什么 错误 ， 根 据 《linux/errno. h>.， 出 错 
的 典型 返回 值 包括 -EINTR( 被 打 断 的 系统 调用 ) 或 者 -EFAULT( 坏 地 址 ). 























前 面 列 表 中 漏 掉 的 是 这 种 情况 ”没有 数据 ， 但 是 可 能 后 来 到 达 .在 这 种 情况 下 ，read 系统 
调用 应 当 阻塞 我 们 将 在 第 6 间 涉 及 阻塞 . 





scull 代码 利用 了 这 些 规则 ， 特别 地 ， 它 利用 了 部 分 读 规则 ， 每 个 scull_read 调用 只 处 
理 单 个 数据 量子 ， 不 实现 一 个 循环 来 收集 所 有 的 数据 ; 这 使 得 代码 更 短 更 易 读 ， 如 果 读 程 
序 确 实 需 要 更 多 数据 ， 它 重新 调用 ， 如 果 标 准 1/0 库 ( 例 如 ，fread) 用 来 读 取 设 备 ， 应 用 
程序 甚至 不 会 注意 到 数据 传送 的 量子 化 . 



































如 果 当 前 读 取 位 置 大 于 设备 大 小 ，scull 的 read 方法 返回 0 来 表示 没有 可 用 的 数据 ( 换 
名 话说， 我 们 在 文件 尾 )， 这 个 情况 发 生 在 如 果 进 程 A 在 读 设备 ， 同 时 进程 B 打开 它 写 ， 
这 样 将 设备 截 短 为 0， 进 程 A 突然 发 现 自己 过 了 文件 尾 ， 下 一 个 读 调用 返回 0. 








这 是 read 的 代码 ( 忽略 对 down interruptible 的 调用 并 且 现 在 为 up; 我 们 在 下 一 章 中 
讨论 它们 ) : 


ssize t scull read(struct file *filp, char user *buf, size t count, loff t *f pos) 
{ 

struct scull dev *dev = filp->private data; 

struct scull qset *dptr; /* the first listitem */ 

int quantum = dev-?quantum, qset = dev-?gset; 

int itemsize = quantum * qset; /* how many bytes in the listitem */ 

int item, s pos, q pos, rest; 

ssize t retval = 0; 


if (down interruptible (&dev-^sem)) 
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return -ERESTARTSYS; 
if (*f pos >= dev-^size) 
goto out; 
if Ckf pos + count > dev-?size) 
count = dev-?size - *f pos; 


/* find listitem, qset index, and offset in the quantum */ 
item = (long)*f pos / itemsize; 

rest = (long)*f pos % itemsize; 

S pos = rest / quantum; 

q pos = rest % quantum; 


/* follow the list up to the right position (defined elsewhere) */ 
dptr = scull follow(dev, item); 
if (dptr == NULL || !dptr-^»data || ! dptr-^data[s pos]) 

goto out; /* don t fill holes */ 


/* read only up to the end of this quantum */ 
if (count > quantum - q pos) 
count = quantum ~ q pos; 


if (copy to user(buf, dptr-^data[s pos] + q pos, count)) 
{ 
retval = -EFAULT; 
goto out; 
} 
*f pos += count; 
retval = count; 


out: 


up (&dev-^sem) ; 
return retval; 


3.7.2. write 方法 





write, $& fead， 可 以 传送 少 于 要 求 的 数据 ， 根 据 返回 值 的 下 列 规则 : 








。 如 果 值 等 于 count， 要 求 的 字 节 数 已 被 传送 . 

。 如 果 正 值 ， 但 是 小 于 count， 只 有 部 分 数据 被 传送 .程序 最 可 能 重 试 写 入 剩 下 的 数 
ju. 

。 如 果 值 为 0， 什 么 没有 写 ， 这 个 结果 不 是 一 个 错误 ， 没 有 理由 返回 一 个 错误 码 . 再 
一 次 ， 标 准 库 重 试 写 调用 . 我 们 将 在 第 6 章 查 看 这 种 情况 的 确切 含义 ， 那 里 介绍 了 
阻塞 . 

。 一 个 负 值 表示 发 生 一 个 错误 ; 如 同 对 于 读 ， 有 效 的 错误 值 是 定义 于 
Xlinux/errno. hèt}. 

















不 地 的 是 ， 仍 然 可 能 有 发 出 错误 消息 的 不 当 行为 程序 ， 它 在 进行 了 部 分 传送 时 终止 。 这 是 
因为 一 些 程序 员 习 惯 看 写 调用 要 么 完全 失败 要 么 完全 成 功 ， 这 实际 上 是 大 部 分 时 间 的 情况 ， 
应 当 也 被 设备 支持 .scull 实现 的 这 个 限制 可 以 修改 ， 但 是 我 们 不 想 使 代码 不 必要 地 复杂 . 
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write 的 scull 代码 一 次 处 理 单个 量子 ， 如 read 方法 做 的 : 








ssize t scull write(struct file *filp, const char user *buf, size t count, loff t *f pos) 
{ 

struct scull dev *dev = filp->private data; 

struct scull qset *dptr; 

int quantum = dev-?5quantum, qset = dev-?gset; 

int itemsize = quantum * qset; 

int item, s pos, q pos, rest; 

ssize t retval = -ENOMEM; /* value used in ^goto out” statements */ 

if (down interruptible (&dev-^sem)) 

return -ERESTARTSYS; 


/* find listitem, qset index and offset in the quantum */ 
item = (long)*f pos / itemsize; 
rest = (long)*f pos % itemsize; 
S pos = rest / quantum; 
q pos = rest % quantum; 
/* follow the list up to the right position */ 
dptr = scull follow(dev, item); 
if (dptr -- NULL) 
goto out; 
if (!dptr— data) 
{ 
dptr->data = kmalloc(qset * sizeof (char *), GFP KERNEL); 
if (!dptr->data) 
goto out; 
memset (dptr->data, 0, qset * sizeof(char *)); 
) 
if (!dptr-^data[s pos]) 
{ 
dptr->data[s_pos] = kmalloc (quantum, GFP KERNEL); 
if (!dptr->data[s_pos]) 
goto out; 
} 
/* write only up to the end of this quantum */ 
if (count > quantum - q pos) 
count = quantum ~ q pos; 
if (copy from user(dptr-^data[s pos]*q pos, buf, count)) 
{ 
retval = -EFAULT; 
goto out; 
} 
*f pos += count; 
retval = count; 


/* update the size */ 
if (dev->size € *f pos) 
dev-?size = **f pos; 
out: 
up (&dev-^sem) ; 
return retval; 
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3.7.3. readv 和 writev 


Unix 系统 已 经 长 时 间 支 持 名 为 readv 和 writev HJ 2 个 系统 调用 . 这些 read 和 write 
的 “矢量 "版 本 使 用 一 个 结构 数组 ， 每 个 包含 一 个 缓存 的 指针 和 一 个 长 度 值 . 一 个 readv Ui 
用 被 期 望 来 轮流 读 取 指示 的 数量 到 每 个 缓存 ， 相 反 ，writev 要 收集 每 个 缓存 的 内 容 到 一 起 
并 且 作 为 单个 写 操 作 送出 它们 ， 









































如 果 你 的 驱动 不 提供 方法 来 处 理 矢 量 操作 ，treadv 和 writev 由 多 次 调用 你 的 read 和 
write 方法 来 实现 .在 许多 情况 ， 但 是 ， 直 接 实现 readv 和 writev 能 获得 更 大 的 效率 . 




















矢量 操作 的 原型 是 : 





ssize t (*readv) (struct file *filp, const struct iovec *iov, unsigned long count, loff t 
*ppos) ; 

ssize t (kwritev) (struct file *filp, const struct iovec *iov, unsigned long count, loff t 
*ppos) ; 





这 里 ，filp 和 ppos 参数 与 read 和 write 的 相同 . iovec 结构 ， 定 义 于 
<linux/uio. h>, llf: 


struct iovec 


void | user *iov base; kernel size t iov len; 


3 








每 个 iovec 描述 了 一 块 要 传送 的 数据 ; 它 开 始 于 iov base (在 用 户 空间 ) 并 且 有 iov len 
FERK. count 参数 告诉 有 多 少 iovec 结构 .这 些 结构 由 应 用 程序 创建 ， 但 是 内 核 在 调用 
瑟 动 之 前 拷贝 它们 到 内 核 空间 . 




















矢量 操作 的 最 简单 实现 是 一 个 直接 的 循环 ， 只 是 传递 出 去 每 个 iovec 的 地 址 和 长 度 给 驱动 
的 read 和 write RKA. 然而， 有 效 的 和 正确 的 行为 常常 需要 驱动 更 聪明 . 例如 ， 一 个 磁 
dH UK) EH] writev 应 当 将 全 部 iovec 结构 中 的 内 容 作 为 磁带 上 的 单个 记录 . 





























很 多 有 驱动， 但是， 没有 从 自己 实现 这 些 方 法 中 获 益 .因此 ，scull 省 略 它 们 . 内 核 使 用 
read 和 write 来 模拟 它们 ， 最 终结 果 是 相同 的 . 


3. 8， 使 用 新 设备 


一 旦 你 装备 好 刚刚 描述 的 4 个 方法 ， 驱 动 可 以 编译 并 测试 了 ; 它 保 留 了 你 写 给 它 的 任何 数 
据 ， 直 到 你 用 新 数据 覆盖 它 ， 这 个 设备 表现 如 一 个 数据 缓存 器 ， 它 的 长 度 仅仅 受 限 于 可 用 
的 真实 RAM 的 数量 ， 你 可 试 着 使 用 cp，dd， 以 及 输入 /输出 重 定 向 来 测试 这 个 驱动 . 






































free 命令 可 用 来 看 空闲 内 存 的 数量 如 何 缩短 和 扩张 的 ， 依 据 有 多 少数 据 写 入 scull. 














为 对 一 次 读 写 一 个 量子 有 更 多 信心 ， 你 可 增加 一 个 printk 在 驱动 的 适当 位 置 ， 并 且 观 察 
当 应 用 程序 读 写 大 块 数据 中 发 生 了 什么 ， 可 选 地 ， 使 用 strace 工具 来 监视 程序 发 出 的 系 
统 调 用 以 及 它们 的 返回 值 ， 跟踪 一 个 cp 或 者 一 个 ls -1 > /dev/scullO 展示 了 量子 化 的 
读 和 写 ， 监 视 ( 以 及 调试 ) 技术 在 第 4 章 详 细 介绍 . 
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3. 9， 人 快速 参考 


本 章 介 绍 了 下 面 符 号 和 头 文 件 ，struct file operations 和 struct file 中 的 成 员 的 列 
表 这 里 不 重复 了 . 








#include Xlinux/types. h> 
dev_t 


dev t 是 用 来 在 内 核 里 代表 设备 号 的 类 型 . 


int MAJOR(dev t dev); 
int MINOR(dev t dev); 


从 设备 编号 中 抽取 主 次 编号 的 宏 . 


dev t MKDEV(unsigned int major, unsigned int minor); 








从 主 次 编号 来 建立 dev t 数据 项 的 宏 定 义 . 





Hinclude <linux/fs. h> 




















FRR KFE S N s RIE. VE E R AA STEE 
定义 . 


int register chrdev region(dev t first, unsigned int count, char *name) 

int alloc chrdev region(dev t *dev, unsigned int firstminor, unsigned int count, char 
*name) 

void unregister chrdev region(dev t first, unsigned int count); 


允许 驱动 分 配 和 释放 设备 编写 的 范围 的 函数 . register_chrdev_region 应 当 用 在 事 
先知 道 需要 的 主编 号 时 ; 对 于 动态 分 配 ， 使 用 alloc chrdev region 代替 . 





int register chrdev(unsigned int major, const char *name, struct 
file operations **fops); 


老 的 ( 2.6 之 前 ) 字符 设备 注册 函数 . CE 2.6 内 核 中 被 模拟 ， 但 是 不 应 当 给 新 代 
码 使 用 ， 如 果 主 编号 不 是 0， 可 以 不 变 地 用 它 ; 否则 一 个 动态 编号 被 分 配给 这 个 设 
备 . 














int unregister chrdev(unsigned int major, const char *name); 


恢复 一 个 由 register chrdev 所 作 的 注册 的 函数 .major 和 name 字符 串 必须 包含 
之 前 用 来 注册 设备 时 同样 的 值 . 


Struct file operations; 
Struct file; 
struct inode; 
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大 部 分 设备 驱动 使 用 的 3 个 重要 数据 结构 ，file_operations 结构 持 有 一 个 字符 驱 
动 的 方法 ; struct file 代表 一 个 打开 的 文件 ，struct inode 代表 磁 各 上 的 一 个 文 
件 . 











Hinclude <linux/cdev. h> 

struct cdev *cdev alloc (void); 

void cdev init(struct cdev *dev, struct file operations *fops); 
int cdev add(struct cdev *dev, dev t num, unsigned int count); 
void cdev del(struct cdev *dev); 





cdev 结构 管理 的 函数 ， 它 代表 内 核 中 的 字符 设备 . 


Hinclude <linux/kernel. h> 
container of (pointer, type, field); 











一 个 传统 宏 定 义 ， 可 用 来 获取 一 个 结构 指针 ， 从 它 里 面包 含 的 茶 个 其 他 结构 的 指针 . 


Hinclude <asm/uaccess. h> 








这 个 包含 文件 声明 内 核 代码 使 用 的 函数 来 移动 数据 到 和 从 用 户 空间 . 


unsigned long copy from user (void *to, const void *from, unsigned long count); 
unsigned long copy to user (void *to, const void *from, unsigned long count); 


在 用 户 空间 和 内 核 空 间 拷贝 数据 . 
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=A MA> ` 
第 4 章 调试 技术 
内 核 编程 带 有 它 自 己 的 ， 独 特 的 调试 挑战 性 ， 内 核 代 码 无 法 轻易 地 在 一 个 调试 器 下 运行 ， 也 无 法 轻易 的 


被 跟踪 ， 因 为 它 是 一 套 没有 与 特定 进程 相关 连 的 功能 的 集合 。 内 核 代码 错误 也 特别 难以 重 现 ， 它 们 会 窑 
连 整 个 系统 与 它们 一 起 失效 ， 从 而 破坏 了 大 量 的 能 用 来 追踪 错误 的 证 据 . 




























































































本 章 介 绍 了 在 如 此 艰难 情况 下 能 够 用 以 监视 内 核 代 码 和 跟踪 错误 的 技术 . 


4.1. 内核 中 的 调试 文 持 


在 第 2 章 ， 我 们 建议 你 建立 并 安装 你 自己 的 内 核 ， 而 不 是 运行 来 自 你 的 发 布 商 的 现成 的 
内 核 ， 运行 你 自己 的 内 核 的 最 充分 的 理由 之 一 是 内 核 开 发 者 已 经 在 内 核 自身 中 构建 了 多 个 
调试 特性 ， 这 些 特性 能 产生 额外 的 输出 并 降低 性 能 ， 因 此 发 布 商 的 产品 内 核 中 往往 不 会 使 
能 它们 ， 作 为 一 个 内 核 开 发 者 ， 但 是 ， 你 有 不 同 的 优先 权 并 且 会 乐于 接收 这 些 格外 的 内 核 
调试 支持 带 来 的 开销 . 




































































这 里 ， 我 们 列 出 用 来 开发 的 内 核 应 当 激 活 的 配置 选项 ， 除 了 另外 指出 的 ， 所 有 的 这 些 选 项 
WE "kernel hacking” 菜 单 ， 不 管 什么 样 的 你 喜欢 的 内 核 配置 工具 .注意 有 些 选 项 不 是 
所 有 体系 都 支持 . 


























CONFIG DEBUG KERNEL 





这 个 选项 只 是 使 其 他 调试 选项 可 用 ; 它 应 当 打 开 ， 但 是 它 上 自己 不 激活 任何 的 特性 . 


CONFIG DEBUG SLAB 

















xv E EIL AEBUTOT T PAHERVI EAT GERA) L2S Fr fr; 激活 这 些 检查 ， 就 可 能 探测 
58] — E P E98 s RUE VU ARGIS VA. — M8 2) BOE RE 7 B dS a H A nu 
设 成 0xa5， 随 后 在 释放 时 被 设 成 0x6b， 你 在 任何 时 候 如 果 见 到 任 一 个 这 种 “ 坏 “ 模 
式 重复 出 现在 你 的 驱动 输出 (或 者 常常 在 一 个 oops 的 列表 )， 你 会 确切 知道 去 找 什 
么 类 型 的 错误 ， 当 激活 调试 ， 内 核 还 会 在 每 个 分 配 的 内 存 对 象 的 前 后 放置 特别 的 守 
护 值 ; 如 果 这 些 值 曾 被 改动 ， 内 核 知 道 有 人 已 履 盖 了 一 个 内 存 分 配 区 ， 它 大 声 抱怨 . 
各 种 的 对 更 模糊 的 问题 的 检查 也 给 激活 了 . 
































CONFIG DEBUG PAGEALLOC 


满 的 页 在 释放 时 被 从 内 核 地 址 空间 去 除 ， 这 个 选项 会 显著 拖 慢 系 统 ， 但 是 它 也 能 快 
速 指出 茶 些 类 型 的 内 存 损坏 错误 . 


CONFIG DEBUG SPINLOCK 





激活 这 个 选项 ， 内 核 捕捉 对 未 初始 化 的 自 旋 锁 的 操作 ， 以 及 各 种 其 他 的 错误 ( 例如 
2 次 解锁 同一 个 锁 ). 





CONFIG DEBUG SPINLOCK SLEEP 
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这 个 选项 激活 对 持 有 上 自 旋 锁 时 进入 睡眠 的 检查 .实际 上 ， 如 果 你 调用 一 个 可 能 会 睡 
眠 的 函数 ， 它 就 抱 急 ， 即 便 这 个 有 疑问 的 调用 没有 睡眠 . 














CONFIG INIT DEBUG 


H init (或 者 — initdata) 标志 的 项 在 系统 初始 化 或 者 模块 加 载 后 都 被 丢弃 . 
这 个 选项 激活 了 对 代码 的 检查 ， 这 些 代码 试图 在 初始 化 完成 后 存 取 初始 化 时 内 存 . 


CONFIG DEBUG INFO 














这 个 选项 使 得 内 核 在 建立 时 包含 完整 的 调试 信息 ， 如 果 你 想 使 用 gdb 调试 内 核 ， 
你 将 需要 这 些 信息 ， 如 果 你 打算 使 用 gdb， 你 还 要 激活 CONFIG FRAME POINTER. 

















CONFIG MAGIC_SYSRQ 
激活 “魔术 SysRq” 键 ， 我 们 在 本 章 后 面 的 “系统 挂 起 ”一 节 查 看 这 个 键 . 


CONFIG DEBUG STACKOVERFLOW 
CONFIG DEBUG STACK USAGE 














这 些 选项 能 帮助 跟踪 内 核 堆栈 溢出 ， 堆 栈 溢出 的 确证 是 一 个 oops 输出 ， 但 是 没有 
任何 形式 的 合理 的 回溯 ， 第 一 个 选项 给 内 核 增 加 了 明确 的 游 出 检查 ; 第 2 个 使 得 
内 核 监测 堆栈 使 用 并 作 一 些 统计 ， 这 些 统计 可 以 用 魔术 SysRq 键 得 到 . 


























CONFIG KALLSYMS 











这 个 选项 (XE"Generl setup/Standard features" F) 使 得 内 核 符 号 信息 建 在 内 核 中 ; 
缺 省 是 激活 的 .符号 选项 用 在 调试 上 下 文中 ; 没有 它 ， 一 个 oops 列表 只 能 以 16 
进 制 格 式 给 你 一 个 内 核 回 滴 ， 这 不 是 很 有 用 . 





CONFIG IKCONFIG 
CONFIG IKCONFIG PROC 




















这 些 选项 (在 “Generl setup” 菜 单 ) 使 得 完整 的 内 核 配置 状态 被 建立 到 内 核 中 ， 可 以 
通过 /proc 来 使 其 可 用 ， 大 部 分 内 核 开发 者 知道 他 们 使 用 的 哪个 配置 ， 并 不 需要 
这 些 选项 (会 使 得 内 核 更 大 )， 但 是 如 果 你 试 着 调试 由 其 他 人 建立 的 内 核 中 的 问题 
它们 可 能 有 用 . 




















CONFIG ACPI DEBUG 


在 “Power management/ACPI” 下 .这 个 选项 打开 详细 的 ACPI (Advanced 
Configuration and Power Interface) 调试 信息 ， 它 可 能 有 用 如 果 你 怀疑 一 个 问 
题 和 ACPI 相关 . 


CONFIG DEBUG DRIVER 


在 “Device drivers" 下 .打开 了 驱动 核心 的 调试 信息 ， 可 用 以 追踪 低层 六 持 代码 的 
问题 ， 我 们 在 第 14 章 查 看 驱动 核心 . 
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CONFIG SCSI CONSTANTS 





这 个 选项 ， 在 “Device drivers/SCSI device support” 下， 建立 详细 的 SCSI 错误 
消息 的 信息 ， 如 果 你 在 使 用 SCSI 驱动 ， 你 可 能 需要 这 个 选项 . 














CONFIG INPUT EVBUG 


这 个 选项 (XE Device drivers/Input device support 下) 打开 输 入 事件 的 详细 日 
志 . 如 果 你 使 用 一 个 输入 设备 的 驱动 ， 这 个 选项 可 能 会 有 用 . 然而 要 小 心 这 个 选项 
的 安全 性 的 隐 含 意义 : 它 记 录 了 你 键入 的 任何 东西 ， 包 括 你 的 密码 . 











CONFIG PROFILING 


这 个 选项 位 于 Profiling support” 之 下 .剖析 通常 用 在 系统 性 能 调整 ， 但 是 在 人 奶 
踊 一 些 内 核 挂 起 和 相关 问题 上 也 有 用 . 











我 们 会 再 次 遇 到 一 些 上 面 的 选项 ， 当 我 们 查看 各 种 方法 来 追踪 内 核 问 题 时 ， 但 是 首先 ， 我 
们 要 看 一 下 经 典 的 调试 技术 : print 语句 . 


4. 2， 用 打印 调试 


最 常用 的 调试 技术 是 监视 ， 在 应 用 程序 编程 当中 是 通过 在 合适 的 地 方 调 用 printf 来 实现 . 
在 你 调试 内 核 代码 时 ， 你 可 以 通过 printk 来 达到 这 个 目的 . 








4.2.1. printk 








我 们 在 前 面 几 章 中 使 用 printk 函数 ， 简 单 地 假设 它 如 同 printf 一 样 使 用 .现在 到 时 候 
介绍 一 些 不 同 的 地 方 了 . 





一 个 不 同 是 printk 允许 你 根据 消息 的 严重 程度 对 其 分 类 ， 通 过 附加 不 同 的 记录 级 别 或 者 
优先 级 在 消息 上 ， 你 常常 用 一 个 宏 定 义 来 指示 记录 级 别 ， 例 如 ，KERN_INF0， 我 们 之 前 曾 
在 一 些 打 印 语句 的 前 面 看 到 过 ， 是 消息 记录 级 别 的 一 种 可 能 值 ， 记 录 宏 定义 扩展 成 一 个 字 
串 ， 在 编译 时 与 消息 文本 连接 在 一 起 ; 这 就 是 为 什么 下 面 的 在 优先 级 和 格式 串 之 间 没 有 去 

















号 的 原因 ， 这 里 有 2 个 printk 命令 的 例子 ， 一 个 调试 消息 ， 一 个 紧急 消息 : 
printk (KERN_DEBUG "Here I am: %s:%i\n”, _FILE , | LINE ); 





printk(KERN CRIT ^I'm trashed; giving up on %p\n”, ptr); 











有 8 种 可 能 的 记录 字 串 ， 在 头 文件 《linux/kernel.h> 里 定义 ; 我 们 按照 严重 性 递减 的 
顺序 列 出 它们 : 


KERN EMERG 





用 于 紧急 消息 ， 常 常 是 那些 骨 溃 前 的 消息 . 








KERN ALERT 
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需要 立刻 动作 的 情形 . 





KERN CRIT 
严重 情况 ， 常 常 与 严重 的 硬件 或 者 软件 失效 有 关 . 


KERN ERR 





用 来 报告 错误 情况 ;设备 驱动 常常 使 用 KERN_ERR 来 报告 便 件 故障 . 








KERN WARNING 


有 问题 的 情况 的 警告 ， 这 些 情 况 自 己 不 会 引起 系统 的 严重 问题 . 











KERN NOTICE 





正常 情况 ， 但 是 仍然 值得 注意 .在 这 个 级 别 一 些 安全 相关 的 情况 会 报告 . 


KERN INFO 





信息 型 消息 ， 在 这 个 级 别 ， 很 多 驱动 在 启动 时 打印 它们 发 现 的 硬件 的 信息 . 








KERN DEBUG 


用 作 调 试 消 息 . 





每 个 字 串 〈 在 宏 定义 扩展 里 ) 代 表 一 个 在 角 括 号 中 的 整数 ， 整 数 的 范围 从 0 到 7， 越 小 
的 数 表示 越 大 的 优先 级 . 


一 条 没有 指定 优先 级 的 printk 语句 缺 省 是 DEFAULT_MESSAGE_LOGLEVEL， 在 
kernel/printk.c 里 指定 作为 一 个 整数 ， 在 2.6.10 内 核 中 ，DEFAULT MESSAGE LOGLEVEL 
是 KERN WARNING， 但 是 在 过 去 已 知 是 改变 的 . 








基于 记录 级 别 ， 内 核 可 能 打印 消息 到 当前 控制 台 ， 可 能 是 一 个 文本 模式 终端 ， 串 口 ， 或 者 
是 一 台 并 口 打印 机 .如果 优 先 级 小 于 整 型 值 console_loglevel， 消 息 被 递交 给 控制 台 ， 
一 次 一 行 ( 除非 提供 一 个 新 行 结尾 ， 否 则 什么 都 不 发 送 ) .如果 klogd 和 syslogd 都 在 
系统 中 运行 ， 内 核 消 息 被 追加 到 /var/log/messages (或 者 另外 根据 你 的 syslogd 配置 
处 理 )， 独 立 于 console loglevel. 如 果 klogd 没有 运行 ， 你 只 有 读 /proc/kmsg ( 用 
dmsg 命令 最 易 做 到 ) 将 消息 取 到 用 户 空 间 ， 当 使 用 klogd 时 ， 你 应 当 记 住 ， 它 不 会 保存 
连续 的 同样 的 行 ， 它 只 保留 第 一 个 这 样 的 行 ， 随 后 是 ， 它 收 到 的 重复 行 数 . 





























变量 console loglevel 初始 化 成 DEFAULT CONSOLE LOGLEVEL， 并 且 可 通过 sys syslog 
系统 调用 修改 ， 一 种 修改 它 的 方法 是 在 调用 klogd 时 指定 -c 开关， 在 klogd 的 
manpage 里 有 指定 ， 注意 要 改变 当前 值 ， 你 必须 先 杀 挤 klogd， 接 着 使 用 -c 选项 重启 它 . 
另外 ， 你 可 写 一 个 程序 来 改变 控制 台 记 录 级 别 ， 你 会 发 现 这 样 一 个 程序 的 版 本 在 由 0 
Reilly 提供 的 FIP 站 点 上 的 misceprogs/setlevel.c. 新 的 级 别 指定 未 一 个 整数 ， 在 1 
和 8 之 前 ， 包 含 1 IS. 如果 它 设 为 1， 只 有 0 级 消息 ( KERN_EMERG ) 到 达 控 制 台 ; 

如 果 它 设 为 8， 所 有 消息 ， 包 括 调试 消息 ， 都 显示 . 
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也 可 以 通过 文本 文件 /proc/sys/kernel/printk 读 写 控制 台 记 录 级 别 ， 这 个 文件 有 4 个 
整 型 值 : 当前 记录 级 别 ， 适 用 没有 明确 记录 级 别 的 消息 的 缺 省 级 别 ， 人 允许 的 最 小 记录 级 别 ， 
以 及 启动 时 缺 省 记录 级 别 ， 写 一 个 单个 值 到 这 个 文件 就 改变 当前 记录 级 别 成 这 个 值 ; 因此 ， 
例如 ， 你 可 以 使 所 有 内 核 消息 出 现在 控制 台 ， 通 过 简单 地 输入 : 

















# echo 8 > /proc/sys/kernel/printk 




















现在 应 当 清 楚 了 为 什么 hello.c 例子 使 用 KERN ALERT 标志 ; 它们 是 要 确保 消息 会 出 现 
在 控制 台 上 . 


4. 2. 2， 重 定向 控制 台 消 息 


Linux 在 控制 台 记 录 策 略 上 允许 一 些 灵活 性 ， 它 允许 你 发 送 消 息 到 一 个 指定 的 虚拟 控制 台 
(如 果 你 的 控制 台 使 用 的 是 文本 屏幕 )， 缺 省 地 ， 这 个 “控制 台 “ 是 当前 虚拟 终端 .为 了 选择 
一 个 不 同 地 虚拟 终端 来 接收 消息 ， 你 可 对 任何 控制 台 设 备 调用 ioctl(TIOCLINUX). 下 面 
的 程序 ，setconsole， 可 以 用 来 选择 哪个 控制 台 接 收 内 核 消 息 ; 它 必 须 由 超级 用 户 运行 ， 
可 以 从 misc-progs 目录 得 到 . 














下 面 是 全 部 程序 .应 当 使 用 一 个 参数 来 指定 用 以 接收 消息 的 控制 台 的 编号 . 


int main(int argc, char **argv) 

{ 
char bytes[2] = {11,0}; /* 11 is the TIOCLINUX cmd number */ 
if (argc--2) bytes[1] = atoi(argv[1]); /* the chosen console */ 
else 1 


fprintf (stderr, ^*s: need a single arg\n”, argv[0]); exit(1); } if 
(ioctl(STDIN FILENO, TIOCLINUX, bytes)«0) { /* use stdin */ 
fprintf(stderr, 5s: ioctl(stdin, TIOCLINUX): 9sWn^, 
argv[0], strerror(errno)); 
exit (1) ; 
} 
exit (0) ; 
} 





setconsole 使 用 特殊 的 ioctl 命令 TIOCLINUX， 来 实现 特定 于 linux 的 功能 .为 使 用 
TIOCLINUX， 你 传递 它 一 个 指 疝 字 节 数组 的 指针 作为 参数 .数组 的 第 一 个 字 节 是 一 个 数 ， 
指定 需要 的 子 命令 ， 下 面 的 字 节 是 特 对 于 子 命令 的 . 在 setconsole 里 ， 使 用 子 命令 11, 
下 一 个 字 节 ( 存 于 bytes[I) 指 定 虚 拟 控制 台 . TIOCLINUX 的 完整 描述 在 内 核 源 码 的 
drivers/char/tty io.c Hi. 


4. 2. 3， 消 息 是 如 何 记录 的 


printk 函数 将 消息 写 入 一 个 _ L0G_BUF_LEN 字 节 长 的 环形 缓存 ， 长 度 值 从 4 KB 到 1 
MB， 由 配置 内 核 时 选择 .这 个 函数 接着 唤醒 任何 在 等 待 消息 的 进程 ， 就 是 说 ， 任 何在 系统 
调用 中 睡眠 或 者 在 读 取 /proc/kmsg 的 进程 . 这 2 个 日 志 引 擎 的 接口 几乎 是 等 同 的 ， 但 
是 注意 ， 从 /proc/kmsg 中 读 取 是 从 日 志 缓存 中 消费 数据 ， 然 而 syslog 系统 调用 能 够 选 
择 地 在 返回 日 志 数据 地 同时 保留 它 给 其 他 进程 .通常 ， 读 取 /proc 文件 容易 些 并 且 是 
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klogd 的 缺 省 做 法 .dmesg 命令 可 用 来 查看 缓存 的 内 容 ， 不 会 冲 掉 它 ; 实际 上 ， 这 个 命令 
将 缓存 区 的 整个 内 容 返 回 给 stdout， 不 管 它 是 否 已 经 被 读 过 . 

















在 停止 klogd 后 ， 如 果 你 偶尔 手工 读 取 内 核 消息 ， 你 会 发 现 /proc 看 起 来 象 一 个 FIF0， 
读者 阻塞 在 里 面 ， 等 待 更 多 数据 ， 显 然 ， 你 无 法 以 这 种 方式 读 消 息 ， 如 果 klogd 或 者 其 
他 进程 已 经 在 读 同样 的 数据 ， 因 为 你 要 竞争 它 . 














如 果 环 形 缓存 填 满 ，printk 绕 回 并 在 缓存 的 开头 增加 新 数据 ， 窗 盖 掉 最 老 的 数据 ， 因 此 ， 
这 个 记录 过 程 会 于 失 最 老 的 数据 ， 这 个 问题 相 比 于 使 用 这 样 一 个 环形 缓存 的 优点 是 可 以 忽 
略 的 ， 例 如 ， 环 形 缓存 允许 系统 即便 没有 一 个 日 志 进 程 也 可 运行 ， 在 没有 人 读 它 的 时 候 可 
以 通过 窗 盖 旧 数 据 浪费 最 少 的 内 存 ，Linux 对 于 消息 的 解决 方法 的 另 一 个 特性 是 ，printk 
可 以 从 任何 地 方 调用 ， 甚 至 从 一 个 中 断 处 理 里 面 ， 没 有 限制 能 打印 多 少数 据 ， 唯 一 的 缺点 
是 可 能 丢失 一 些 数据 . 


























如 果 klogd 进程 在 运行 ， 它 获取 内 核 消 息 并 分 发 给 syslogd, syslogd 接着 检查 
/etc/syslog.conf 来 找 出 如 何 处 理 它们 . syslogd 根据 一 个 设施 和 一 个 优先 级 来 区 分 消 
县 ; 这 个 设施 和 优先 级 的 允许 值 在 《sys/syslog. h> 中 定义 ， 内 核 消息 由 LOG KERN 设施 
来 记录 ， 在 一 个 对 应 于 printk 使 用 的 优先 级 上 (例如 ，L0G_ERR 用 于 KERN ERR 消息 ). 
如 果 klogd 没有 运行 ， 数 据 保留 在 环形 缓存 中 直到 有 人 读 它 或 者 缓存 被 覆盖 . 











如 果 你 要 避免 你 的 系统 被 来 自 你 的 驱动 的 监视 消息 击 垮 ， 你 或 者 给 klogd 指定 一 个 -f 
(文件 ) 选项 来 指示 它 保存 消息 到 一 个 特定 的 文件 ， 或 者 定制 /etc/syslog.conf 来 适应 
你 的 要 求 ， 但 是 另外 一 种 可 能 性 是 采用 粗暴 的 方式 : R$ klogd 和 详细 地 打印 消息 在 一 
个 没有 用 到 的 虚拟 终端 上 , ”或 者 从 一 个 没有 用 到 的 xterm 上 发 出 命令 cat 

/ proc/kmsg. 


4.2.4， 打 开 和 关闭 消息 


在 驱动 开发 的 早期 ，printk 非常 有 助 于 调试 和 测试 新 代码 ， 当 你 正式 发 行 驱 动 时 ， 换 名 
话说 ， 你 应 当 去 掉 ， 或 者 至 少 关 闭 ， 这 些 打印 语句 . 不幸 的 是 ， 你 很 可 能 会 发 现 ， 就 在 你 
认为 你 不 再 需要 这 些 消 息 并 去 掉 它们 时 ， 你 要 在 驱动 中 实现 一 个 新 特性 (或 者 有 人 发 现 了 
一 个 bug)， 你 想 要 至 少 再 打开 一 个 消息 .有 几 个 方法 来 解决 这 2 个 问题 ， 全 局 性 地 打开 
或 关闭 你 地 调试 消息 和 打开 或 关闭 单个 消息 . 
























































这 里 我 们 展示 一 种 编码 printk 调用 的 方法 ， 你 可 以 单独 或 全 局 地 打开 或 关闭 它们 ; 这 个 
技术 依靠 定义 一 个 宏 ， 在 你 想 使 用 它 时 就 转变 成 一 个 printk (或 者 printf) 调 用 . 





。 每 个 printk 语句 可 以 打开 或 关闭 ， 通 过 去 除 或 添加 单个 字符 到 宏 定 义 的 名 子 . 

。 所 有 消息 可 以 马上 关闭 ， 通 过 在 编译 前 改变 CFLAGS 变量 的 值 . 

。 同一 个 print 语句 可 以 在 内 核 代码 和 用 户 级 代码 中 使 用 ， 因 此 对 于 格外 的 消息 ， 
驱动 和 测试 程序 能 以 同样 的 方式 被 管理 . 























下 面 的 代码 片断 实现 了 这 些 特性 ， 直 接 来 自 头 文件 scull.h: 





Bo, 例如 ， 使 用 setlevel 8; setconsole 10 来 配置 终端 10 来 显示 消息 . 
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&undef PDEBUG /* undef it, just in case */ 
#ifdef SCULL DEBUG 
8 ifdef | KERNEL . 


/* This one if debugging is on, and kernel space */ 
& define PDEBUG (fmt, args...) printk( KERN DEBUG “scull: ^ fmt, ## args) 
8 else 





/* This one for user space */ 
# define PDEBUG (fmt, args...) fprintf(stderr, fmt, ## args) 


# endif 

Helse 

& define PDEBUG (fmt, args...) /* not debugging: nothing */ 

Hendif 

&undef PDEBUGG #define PDEBUGG(fmt, args...) /* nothing: it's a placeholder */ 


符号 PDEBUG 定义 和 去 定义 ， 取 决 于 SCULL DEBUG 是 否定 义 ， 和 以 何 种 方式 显示 消息 适 
合 代 码 运行 的 环境 : 当 它 在 内 核 中 就 使 用 内 核 调用 printk， 在 用 户 空 间 运行 就 使 用 libe 
调用 fprintf 到 标准 错误 输出 ，PDEBUGG 符号 ， 换 名 话说 ， 什 么 不 作 ; 他 可 用 来 轻易 地 ” 
注释 ”print 语句 ， 而 不 用 完全 去 掉 它 们 . 

















为 进一步 简化 过 程 ， 添 加 下 面 的 行 到 你 的 makfile 里 : 


# Comment/uncomment the following line to disable/enable debugging 
DEBUG = y 


& Add your debugging flag (or not) to CFLAGS 

ifeq ($ (DEBUG), y) 

DEBFLAGS = -0 -g -DSCULL DEBUG # ^-0^ is needed to expand inlines 
else 

DEBFLAGS - -02 

endif 


CFLAGS += $ (DEBFLAGS) 





本 节 中 出 现 的 宏 定 义 依赖 gcc 对 ANSI C HEARD HE, CRE n] 3e 030 HUNE 
义 . 这 个 gee 依赖 不 应 该 是 个 问题 ， 因 为 无 论 如 何 内 核 回 有 的 非常 依赖 于 gcc 特性. 男 
Jh, makefile 依赖 GNU 版 本 的 make; 再 一 次 ， 内 核 也 依赖 GNU make， 所 以 这 个 依赖 不 


是 问题 . 














如 果 你 熟悉 C 预 处 理 器 ， 你 可 以 扩展 给 定 的 定义 来 实现 一 个 “调试 级 别 “的 概念 ， 定 义 不 
同 的 级 别 ， 安 排 一 个 整数 (或 者 位 扒 码 ) 值 给 每 个 级 别 ， 以 便 决定 它 应 当 多 么 详细 . 























但 是 每 个 驱动 有 它 上 自己 的 特性 和 监视 需求 .好 的 编程 技巧 是 在 灵活 性 和 效率 之 间 选 择 最 好 
的 平衡 ， 我 们 无 法 告诉 你 什么 是 最 好 的 ， 记 住 ， 预 处 理 器 条 件 (连同 代码 中 的 常数 表达 式 ) 
在 编译 时 执行 ， 因 此 你 必须 重新 编译 来 打开 或 改变 消息 .一 个 可 能 的 选择 是 使 用 C 条 件 
句 ， 它 在 运行 时 执行 ， 因 而 ， 能 允许 你 在 出 现 执行 时 打开 或 改变 消息 机 制 ， 这 是 一 个 好 的 
特性 ， 但 是 它 在 每 次 代码 执行 时 需要 额外 的 处 理 ， 这 样 即便 消息 给 关闭 了 也 会 影响 效率 . 
有 了 时 这 个 效率 损失 无 法 接受 . 
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本 节 出 现 的 宏 定义 已 经 证 明 在 多 种 情况 下 是 有 用 的 ， 唯 一 的 缺点 是 要 求 在 任何 对 它 的 消息 
改变 后 重新 编译 . 


4. 2. 5 速率 限制 


如 果 你 不 小 心 ， 你 会 发 现 自己 用 printk 产生 了 上 干 条 消息 ， 压 倒 了 控制 台 并 且 ， 可 能 地 ， 
使 系统 日 志文 件 溢出 ， 当 使 用 一 个 慢 速 控制 台 设 备 \ 例 如 ， 一 个 串口 )， 过 量 的 消息 速率 也 
能 拖 慢 系统 或 者 只 是 使 它 不 反应 了 ， 非 常 难 于 着 手 于 系统 出 错 的 地 方 ， 当 控制 台 不 停 地 输 
出 数据 ， 因 此 ， 你 应 当 非 常 注意 你 打印 什么 ， 特 别 在 驱动 的 产品 版 本 以 及 特别 在 初始 化 完 
成 后 ， 通 第， 产品 代码 在 正常 操作 时 不 应 当 打 印 任何 东西 ;打印 的 输出 应 当 是 指示 需要 注 


意 的 异常 情况 . 


















































另 一 方面 ， 你 可 能 想 发 出 一 个 日 志 消 息 ， 如 果 你 驱动 的 设备 停止 工作 .但 是 你 应 当 小 心 不 
要 做 过 了 头 . 一 个 面 对 失 败 永远 继续 的 傻瓜 进程 能 产生 每 秒 上 千 次 的 尝试 ， 如 果 你 的 驱动 
每 次 都 打印 “my device is broken”， 它 可 能 产生 大 量 的 输出 ， 如 果 探 制 台 设 备 慢 就 有 可 
能 霸占 CPU 一 没有 中 断 用 来 驱动 控制 台 ， 就 算是 一 个 串口 或 者 一 个 行 打 印 机 . 











在 很 多 情况 下 ， 最 好 的 做 法 是 设置 一 个 标志 说 , “我 已 经 抱怨 过 这 个 了 “， 并 不 打印 任何 后 
来 的 消息 只 要 这 个 标志 设置 着 ， 然 而 ， 有 几 个 理由 偶尔 发 出 一 个 “设备 还 是 坏 的 “的 提示 . 
内 核 已 经 提供 了 一 个 函数 帮助 这 个 情况 : 














int printk ratelimit (void); 





这 个 函数 应 当 在 你 认为 打印 一 个 可 能 会 常常 重复 的 消息 之 前 调用 ， 如 果 这 个 函数 返回 非 零 
值 ， 继 续 打印 你 的 消息 ， 否 则 跳 过 它 ， 这样， 典型 的 调用 如 这 样 : 


if (printk ratelimit()) 
printk(KERN NOTICE “The printer is still on fireNn ) ; 


printk ratelimit 通过 跟踪 多 少 消息 发 咎 控制 台 而 工作 ， 当 输出 级 别 超过 一 个 限度 ， 
printk ratelimit 开始 返回 0 并 使 消息 被 扔 掉 . 














printk ratelimit 的 行为 可 以 通过 修改 /proc/sys/kern/printk ratelimit( 在 重新 使 
能 消息 前 等 待 的 秒 数 ) 和 /proc/sys/kernel/printk ratelimit burst( 限 速 前 可 接收 的 
消息 数 ) 来 定制 . 


4.2.6. 打印 设备 编号 
偶尔 地 ， 当 从 一 个 驱动 打印 消息 ， 你 会 想 打 印 与 感 兴趣 的 硬件 相关 联 的 设备 号 ， 打 印 主 次 


编号 不 是 特别 难 ， 但 是 ， 为 一 致 性 考虑 ， 内 核 提 供 了 一 些 实用 的 宏 定义 ( 在 
《linux/kdev_t.h> 中 定义 ) 用 于 这 个 目的 : 








int print dev t(char *buffer, dev t dev); 
char *format dev t(char *buffer, dev t dev); 


两 个 宏 定 义 都 将 设备 号 编码 进 给 定 的 缓冲 区 ; 唯一 的 区 别 是 print dev t 返回 打印 的 字 
符 数 ， 而 format dev t 返回 缓存 区 ; 因此 ， 它 可 以 直接 用 作 printk 调用 的 参数 ， 但 是 
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必须 记 住 printk 只 有 提供 一 个 结尾 的 新 行 才 会 刷 行 ， DERE REA DUCI EAE 
号 ; 如 果 64 位 编号 在 以 后 的 内 核发 行 中 明显 可 能 ， 这 个 缓冲 区 应 当 可 能 至 少 是 20 字 节 
长 . 


4. 3， 用 查询 来 调试 


前 面 一 节 描 述 了 printk 是 任何 工作 的 以 及 怎样 使 用 它 ， 没 有 谈 到 的 是 它 的 缺点 . 























大 量 使 用 printk 能 够 显著 地 拖 慢 系统 ， 即 便 你 降低 cosole loglevel 来 避免 加 载 控制 
台 设 备 ， 因 为 syslogd 会 不 停 地 同步 它 的 输出 文件 ; 因此， 要 打印 的 每 一 行 都 引起 一 次 
REWER. 从 syslogd 的 角度 这 是 正确 的 实现 . 它 试 图 将 所 有 东西 写 到 磁盘 上 ， 防 止 系 
统 刚好 在 打印 消息 后 朋 演 ;然而 ， 你 不 想 只 是 为 了 调试 信息 的 原因 而 拖 慢 你 的 系统 ， 可 以 
在 出 现 于 /etc/syslogd. conf 中 的 你 的 日 志文 件 名 前 加 一 个 连 字 号 来 解决 这 个 问题 呈 . 
改变 配置 文件 带 来 的 问题 是 ， 这 个 改变 可 能 在 你 结束 调试 后 保留 在 那里 ， 即 便 在 正常 系统 
操作 中 你 确实 想 尽 快 刷 新 消息 到 磁盘 . 这样 永久 改变 的 另外 的 选择 是 运行 一 个 非 klogd 
程序 ( 例如 cat /proc/kmsg， 如 之 前 建议 的 )， 但 是 这 可 能 不 会 提供 一 个 合适 的 环境 给 正 
常 的 系统 操作 . 










































































经 常 地 ， 最 好 的 获得 相关 信息 的 方法 是 查询 系统 ， 在 你 需要 消息 时 ， 不 是 连续 地 产生 数据 . 
实际 上 ， 每 个 Unix 系统 提供 许多 工具 来 获取 系统 消息 : ps, netstat, vmstat, 44. 














有 几 个 技术 给 驱动 开发 者 来 查询 系统 : 创建 一 个 文件 在 /proc 文件 系统 下 ， 使 用 ioctl 
驱动 方法 ， 借 助 sysfs 输出 属性 .使 用 sysfs 需要 不 少 关 于 驱动 模型 的 背景 知识 ， 在 
14 章 讨论 . 


4.3.1. 使 用 /proc 文件 系统 
/proc 文件 系统 是 一 个 特殊 的 软件 创建 的 文件 系统 ， 内 核 用 来 输出 消息 到 外 界 . /proc 下 


的 每 个 文件 都 因 到 一 个 内 核 函 数 上 ， 当 文件 被 读 的 时 候 即 时 产生 文件 内 容 ， 我 们 已 经 见 到 
一 些 这 样 的 文件 起 作用 ; 例如 ，/proc/modules， 常 常 返回 当前 已 加 载 的 模块 列表 . 





























/proc 在 Linux 系统 中 非常 多 地 应 用 . 很 多 现代 Linux 发 布 中 的 工具 ， 例 如 ps, top, 

以 及 uptime, MA /proc 中 获取 它们 的 信息 .一 些 设备 驱动 也 通过 /proc 输出 信息 ， 你 

的 也 可 以 这 样 做 ，/proc 文件 系统 是 动态 的 ， 因 此 你 的 模块 可 以 在 任何 时 候 添 加 或 去 除 条 
目 . 











完全 特性 的 /proc 条 目 可 能 是 复杂 的 野兽; 另外 ， 它 们 可 写 也 可 读 ， 但 是 ， 大 部 分 时 间 ， 
/proc 条 目 是 只 读 的 文件 ， 本 布 只 涉及 简单 的 只 读 情 况 ， 那 些 感 兴 趣 于 实现 更 复杂 的 东西 
的 人 可 以 从 这 里 获取 基本 知识 ; 接 下 来 可 参考 内 核 源码 来 获知 完整 的 信息 . 











在 我 们 继续 之 前 ， 我 们 应 当 提 及 在 /proc 下 添加 文件 是 不 鼓励 的 ， /proc 文件 系统 在 内 
核 开 发 者 看 作 是 有 点 无 法 控制 的 混乱 ， 它 已 经 远离 它 的 本 来 目的 了 (是 提供 关于 系统 中 运 
行 的 进程 的 信息 ).， 建议 新 代码 中 使 信息 可 获取 的 方法 是 利用 sysfs， 如 同 建议 的 ， 使 用 


















































"UU 连 字号 ， 或 者 减 号 ， 是 一 个 “魔术 “标识 以 阻止 syslogd 刷新 文件 到 磁盘 在 每 个 新 
syslog. conf (5)， 一 个 值得 一 读 的 manpage. 
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sysfs 需要 对 Linux 设备 模型 的 理解 ， 然 而 ， 我 们 直到 14 章 才 接触 它 ， 同 时 ，/proc 
下 的 文件 稍稍 容易 创建 ， 并 且 它 们 完全 适合 调试 目的 ， 所 以 我 们 在 这 里 包含 它们 . 



































4.3.1.1. 在 /proc 里 实现 文件 




















所 有 使 用 /proc 的 模块 应 当 包 含 Xlinux/proc fs. h^ 来 定义 正确 的 函数 . 








要 创建 一 个 只 读 /proc 文件 ， 你 的 驱动 必须 实现 一 个 函数 来 在 文件 被 读 时 产生 数据 . 当 
某 个 进程 读 文 件 时 (使 用 read. 系统 调用 )， 这 个 请 求 通过 这 个 函数 到 达 你 的 模块 ， 我 们 先 
看 看 这 个 函数 并 在 本 革 后 面 讨论 注册 接口 . 








当 一 个 进程 读 你 的 /proc 文件 ， 内 核 分 配 了 一 页 内 存 ( 就 是 说 ，PAGE_SIZE F), IK) 
可 以 写 入 数据 来 返回 给 用 户 空间 .那个 缓存 区 传递 给 你 的 函数 ， 是 一 个 称 为 read proc 
的 方法 : 











int (*read proc) (char *page, char **kstart, off t offset, int count, int *eof, void *data); 


page 指针 是 你 写 你 的 数据 的 缓存 区 ; start 是 这 个 函数 用 来 说 有 关 的 数据 写 在 页 中 哪里 
(下 面 更 多 关于 这 个 ); offset 和 count 对 于 read 方法 有 同样 的 含义 .eof 参数 指向 一 
个 整数 ， 必 须 由 驱动 设置 来 指示 它 不 再 有 数据 返回 ，data 是 驱动 特定 的 数据 指针 ， 你 可 
以 用 做 内 部 用 途 . 














这 个 函数 应 当 返 回 实 际 摆 放 于 page 缓存 区 的 数据 的 字 节 数 ， 就 象 read 方法 对 别 的 文件 
所 作 一 样 ， 别 的 输出 值 是 eof 和 *start. eof 是 一 个 简单 的 标志 ， 但 是 start 值 的 使 
用 有 些 复 杂 ; 它 的 目的 是 帮助 实现 大 的 (超过 一 页 ) /proc 文件 . 








start 参数 有 些 非 传统 的 用 法 . 它 的 目的 是 指示 哪里 ( 哪 一 页 ) 找到 返回 给 用 户 的 数据 ， 当 
调用 你 的 proc read 方法 ，*start 将 会 是 NULL， 如 果 你 保持 它 为 NULL， 内 核 假定 数据 
已 放 进 page 偏 移 是 0; 换 句 话说 ， 它 假定 一 个 头脑 简单 的 proc read 版 本 ， 它 安放 虚 
拟 文件 的 整个 内 容 到 page， 没 有 注意 offset 参数 . 如 果 ， 相 反 ， 你 设置 *start 为 一 
个 dENULL 值 ， 内 核 认 为 由 *start 指向 的 数据 考虑 了 offset， 并 且 准 备 好 直接 返回 给 
HP. 通常 ， 返 回 少 量 数据 的 简单 proc read 方法 只 是 忽略 start. 更 复杂 的 方法 设置 
*start 为 page 并 且 只 从 请 求 的 offset 那里 开始 安放 数据 . 





























还 有 一 段 距离 到 /proc 文件 的 男 一 个 主要 问题 ， 它 也 打算 解答 start. 有 时 内 核 数据 结 
构 的 ASCII 表示 在 连续 的 read 调用 中 改变 ， 因 此 读 进 程 可 能 发 现 从 一 个 调用 到 下 一 个 
有 不 一 致 的 数据 ， 如 果 *start 设 成 一 个 小 的 整数 值 ， 调 用 者 用 它 来 递增 filp-<f_pos 
不 依赖 你 返回 的 数据 量 ， 因 此 使 f pos 成 为 你 的 read proc 过 程 的 一 个 内 部 记录 数 ， 如 
果 ， 例 如 ， 如 果 你 的 read proc 函数 从 一 个 大 结构 数组 返回 信息 并 且 第 一 次 调用 返回 了 
5 个 结构 ，#start 可 设 成 5， 下 一 个 调用 提供 同一 个 数 作为 offset; 驱动 就 知道 从 数组 
中 第 6 个 结构 返回 数据 ， 这 是 被 它 的 作者 承认 的 一 个 ”hack“， 可 以 在 


fs/proc/generic.c Js. 


























注意 ， 有 更 好 的 方法 实现 大 的 /proc 文件 ; 它 称 为 seq_file， 我 们 很 快 会 讨论 它 ， 首先 ， 
然而 ， 是 时 间 举 个 例子 了 .， 下面 是 一 个 简单 的 (有 点 丑陋 ) read proc 实现 ， 为 scull X 
备 : 


67 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] O O O 0O IO [] O Linux[] HD] E] LU [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 


int scull read procmem(char *buf, char **start, off t offset, int count, int *eof, void *data) 
{ 

int i, j, len = 0; 

int limit = count - 80; /* Don't print more than this */ 


for (i = 0; i < scull nr devs && len <= limit; i++) { 
struct scull dev *d = &scull devices[i]; 
struct scull qset *qs = d-»data; 
if (down interruptible (&d->sem)) 
return -ERESTARTSYS; 
len += sprintf (buf+len, ^WnDevice %i: qset %i, q *i, sz %li\n”, i, d-^qset, d-^»quantum, d-^size); 
for (; qs && len <= limit; qs = qs—^next) { /* scan the list */ 
len += sprintf (buf + len, ^ item at *p, qset at %p\n”, qs, qs-?data); 
if (qs-^data && !qs-^next) /* dump only the last item */ 
for (j = 0; j < d->qset; j++) { 
if (qs->data[j]) 
len += sprintf (buf + len, ^ % 4i: %8p\n”, j, qs->data[j]); 





} 
) 


up(&scull devices[i]. sem) ; 


} 
*eof = 1; 
return len; 


) 

















这 是 一 个 相当 典型 的 read proc 实现 ， 它 假定 不 会 有 必要 产生 超过 一 页 数据 并 且 因此 忽 
略 了 start 和 offset 值 ， 它 是 但 是 ， 小 心地 不 窗 新 它 的 缓存 ， 只 是 以 防 万 一 . 


4.3.1.2. 老 接口 








如 果 你 阅览 内 核 源码 ， 你 会 遇 到 使 用 老 接口 实现 /proc 的 代码 : 


int (*get info) (char *page, char *xstart, off t offset, int count); 





所 有 的 参数 的 含义 同 read proc 的 相同 ， 但 是 没有 eof 和 data 参数 . 这 个 接口 仍然 支 
持 ， 但 是 将 来 会 消失 ; 新 代码 应 当 使 用 read proc. 接口 来 代替 . 


4.3.1.3. 创建 你 的 /proc 文件 





一 旦 你 有 一 个 定义 好 的 read proc 函数 ， 你 应 当 连 接 它 到 /proc 层次 中 的 一 个 入 口 项 . 
使 用 一 个 creat proc read entry 调用 : 





struct proc dir entry *create proc read entry(const char *name, mode t mode, 
struct proc dir entry *base, read proc t *read proc, void *data); 








XE, name 是 要 创建 的 文件 名 子 ，mod 是 文件 的 保护 掩 码 ( 缺 省 系统 范围 时 可 以 作为 0 
传递 )，base 指出 要 创建 的 文件 的 目录 ( 如 果 base 是 NULL， 文 件 在 /proc 根 下 创建 ), 
read proc 是 实现 文件 的 read proc K% data 被 内 核 忽略 ( 但 是 传递 给 read proc). 
这 就 是 scull 使 用 的 调用 ， 来 使 它 的 /proc 函数 可 用 做 /proc/scullmem: 
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create proc read entry( scullmem^, 0 /* default mode */, 
NULL /* parent dir */, scull read procmem, 
NULL /* client data */); 





这 里 ， 我 们 创建 了 一 个 名 为 scullmem 的 文件 ， 直 接 在 /proc F, WARE, 4I 
读 的 保护 . 








目录 入 口 指 针 可 用 来 在 /proc 下 创建 整个 目录 层次 . 但是， 注意 ， 一 个 入 口 放 在 /proc 
的 子 目 录 下 会 更 容易 ， 通 过 简单 地 给 出 目录 名 子 作为 这 个 入 口 名 子 的 一 部 分 只 要 这 个 
目录 自身 己 经 存在 . 例如， 一 个 (常常 被 忽略 ) 传 统 的 是 /proc 中 与 设备 驱动 相连 的 入 口 
应 当 在 driver/ 子 目 录 下 ; scull 能 够 安放 它 的 入 口 在 那里 ， 简 单 地 通过 指定 它 为 名 子 


driver/scullmem. 
































/proc 中 的 入 口 ， 当 然 ， 应 当 在 模块 和 卸载 后 去 除 . remove proc entry 是 恢复 
create proc read entry 所 做 的 事情 的 函数 : 


remove proc entry( scullmem’, NULL /* parent dir */); 





ERAORKMKS SHOES S ER REB TRTVR], EX, WRR RRA, AEA. 














当 如 展示 的 使 用 /proc 文件 ， 你 必须 记 住 几 个 实现 的 麻烦 事 一 不 要 奇怪 现在 不 或 励 使 
HE. 





最 重要 的 问题 是 关于 去 除 /proc AO. 这 样 的 去 除 很 可 能 在 文件 使 用 时 发 生 ， 因 为 没有 
所 有 者 关联 到 /proc 入 口 ， 因 此 使 用 它们 不 会 作用 到 模块 的 引用 计数 . 这 个 问题 可 以 简 
单 的 触发 ， 例 如 通过 运行 sleep 100 < /proc/myfile， 刚 好 在 去 除 模块 之 前 . 

















另外 一 个 问题 时 关于 用 同样 的 名 子 注册 两 个 入 口 。 内 核 信任 驱动 ， 不 会 检查 名 子 是 否 已 经 
注册 了 ， 因 此 如 果 你 不 小 心 ， 你 可 能 会 使 用 同样 的 名 子 注册 两 个 或 多 个 入 口 。 这 是 一 个 已 
知 发 生 在 教室 中 的 问题 ， 这 样 的 入 口 是 不 能 区 分 的 ， 不 但 在 你 存 取 它们 时 ， 而 且 在 你 调用 


remove proc entry HJ. 














4.3.1.4. seq file 接口 








如 我 们 上 面 提 到 的 ， 在 /proc 下 的 大 文件 的 实现 有 点 麻烦 . 一直 以 来 ，/proc 方法 因为 
当 输 出 数量 变 大 时 的 错误 实现 变 得 声名 狼藉 .作为 一 种 清理 /proc 代码 以 及 使 内 核 开发 
者 活 得 轻松 些 的 方法 ， 添 加 了 seq file 接口 ， 这 个 接口 提供 了 简单 的 一 套 函 数 来 实现 大 
内 核 虚拟 文件 . 




















set file 接口 假定 你 在 创建 一 个 虚拟 文件 ， 它 涉及 一 系列 的 必须 返回 给 用 户 空间 的 项 . 

为 使 用 seq_file， 你 必须 创建 一 个 简单 的 “iterator” 对 象 ， 它 能 在 序列 里 建立 一 个 位 
置 ， 癌 前 进 ， 并 且 输 出 序列 里 的 一 个 项 ， 它 可 能 听 起 来 复杂 ， 但 是 ， 实 际 上 ， 过 程 非常 简 
单 ， 我 们 一 步 步 来 创建 /proc 文件 在 scull 驱动 里 ， 来 展示 它 是 如 何 做 的 . 


























第 一 步 ， 不 可 避免 地 ， 是 包含 《linux/seq_file. h>， 接 着 你 必须 创建 4 iterator 方 
法 ， 称 为 start,，next，stop， 和 show. 
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start 方法 一 直 是 首先 调用 ， 这 个 函数 的 原型 是 : 





void *start (struct seq file *sfile, loff t *pos); 


sfile 参数 可 以 几乎 是 一 直 被 忽略 . pos 是 一 个 整 型 位 置 值 ， 指 示 应 当 从 哪里 读 . 位置 的 
解释 完全 取决 于 实现 ， 在 结果 文件 里 不 需要 是 一 个 字 节 位 置 ， 因 为 seq file 实现 典型 地 
步 进 一 系列 感 兴趣 的 项 ，position 常常 被 解释 为 指 癌 序 列 中 下 一 个 项 的 指针 .scull JK 
动 解释 每 个 设备 作为 系列 中 的 一 项 ， 因 此 进入 的 pos 简单 地 是 一 个 scull_device 数组 
的 索引 . Kk, scull 使 用 的 start 方法 是 : 


























static void *scull seq start(struct seq file *s, loff t *pos) 
{ 
if (*pos >= scull nr devs) 
return NULL; /* No more to read */ 
return scull devices + *pos; 


} 





返回 值 ， 如 果 非 NULL， 是 一 个 可 以 被 iterator 实现 使 用 的 私有 值 . 


next 函数 应 当 移动 iterator 到 下 一 个 位 置 ， 如 果 序 列 里 什么 都 没有 剩 下 就 返回 NULL. 
这 个 方法 的 原型 是 : 





void *next(struct seq file *sfile, void *v, loff t **pos); 


这 里 ，v 是 从 前 一 个 对 start 或 者 next 的 调用 返回 的 iterator, pos 是 文件 的 当前 位 
置 . next 应 当 递 增 有 pos 指向 的 值 ; 根据 你 的 iterator 是 如 何 工作 的 ， 你 可 能 (尽管 
可 能 不 会 ) 需要 递增 pos 不 止 是 1. 这 是 scull 所 做 的 : 


i 











static void *scull seq next(struct seq file *s, void *v, loff t *pos) 
{ 
(*pos) ++; 
if (*pos >= scull nr devs) 
return NULL; 
return scull devices + *pos; 


j 





当 内 核 处 理 完 iterator， 它 调用 stop 来 清理 : 











void stop(struct seq file *sfile, void *v); 











scull 实现 没有 清理 工作 要 做 ， 所 以 它 的 stop 方法 是 空 的 . 











设计 上 ， 值 得 注意 seq file 代码 在 调用 start 和 stop 之 间 不 睡眠 或 者 进行 其 他 非 原 
子 性 任务 ， 你 也 肯定 会 看 到 在 调用 start 后 马上 有 一 个 stop 调用 . 因此 ， 对 你 的 
start 方法 来 说 请 求 信号 量 或 自 旋 锁 是 安全 的 ， 只 要 你 的 其 他 seq file 方法 是 原子 的 ， 
调用 的 整个 序列 是 原子 的 ，( 如 果 这 一 段 对 你 没有 意义 ， 在 你 读 了 下 一 章 后 再 回 到 这 . ) 
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在 这 些 调用 中 ， 内 核 调 用 show 方法 来 真正 输出 有 用 的 东西 给 用 户 空间 .这 个 方法 的 原型 
是 : 














int show(struct seq file *sfile, void *v); 











这 个 方法 应 当 创建 序列 中 由 iterator v 指示 的 项 的 输出 .不 应 当 使 用 printk， 但 是 ; 
有 一 套 特 殊 的 用 作 seq file 输出 的 函数 : 


int seq printf(struct seq file *sfile, const char *fmt, ...); 


这 是 给 seq file 实现 的 printf 对 等 体 ; 它 采 用 常用 的 格式 串 和 附加 值 参 数 . 你 
必须 也 将 给 show 函数 的 set file 结构 传递 给 它 ， 然 而 . 如果 seq printf 返回 
非 零 值 ， 意 思 是 缓存 区 已 填充 ， 输 出 被 丢弃 ， 大 部 分 实现 忽略 了 返回 值 ， 但 是 . 














int seq putc(struct seq file *sfile, char c); 
int seq puts (struct seq file *sfile, const char *s); 


它们 是 用 户 空间 pute 和 puts 函数 的 对 等 体 . 
int seq escape(struct seq file *m, const char *s, const char *esc); 


这 个 函数 是 seq puts 的 对 等 体 ， 除 了 s 中 的 任何 也 在 esc 中 出 现 的 字符 以 八 进 
制 格式 打印 ，ese 的 一 个 通用 值 是 “^\tNnN\“， 它 使 内 嵌 的 空格 不 会 搞 乱 输出 和 可 能 
搞 乱 shell 脚本 . 





int seq path(struct seq file *sfile, struct vfsmount *m, struct dentry *dentry, 
char *esc); 





这 个 函数 能 够 用 来 输出 和 给 定 命令 项 关联 的 文件 名 子 ， 它 在 设备 驱动 中 不 可 能 有 用 ; 
我 们 是 为 了 完整 在 此 包含 它 . 














回 到 我 们 的 例子 ; 在 scull 使 用 的 show 方法 是 : 


static int scull seq show(struct seq file *s, void *v) 
{ 
struct scull dev *dev = (struct scull dev *) v; 
struct scull qset *d; 
int i; 


if (down interruptible (&dev-?sem)) 
return -ERESTARTSYS; 


seq printf(s, "WnDevice *i: qset %i, q 9i, sz %li\nľ, 
(int) (dev - scull devices), dev-?qset, 
dev-^quantum, dev-5size); 


for (d = dev-^data; d; d = d—^next) { /* scan the list */ 
seq printf(s, ” item at %p, qset at %p\n”, d, d-»data); 
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if (d-»data && !d-»next) /* dump only the last item */ 


for (i = 0; i € dev->qset; i++) { 
if (d->data[i]) 
seq printf (s, ^ % 4i: *8pWn^, 
i, d->datali]); 

} 
} 
up (&dev->sem) ; 
return 0; 


} 





这 里 ， 我 们 最 终 解释 我 们 的 ”iterator” 值 ， 简 单 地 是 一 个 scull dev 结构 指针 . 








现在 已 有 了 一 个 完整 的 iterator 操作 的 集合 ，scull 必须 包装 起 它们 ， 并 且 连 接 它们 到 
/proc 中 的 一 个 文件 ， 第 一 步 是 填充 一 个 seq operations 结构 : 





static struct seq operations scull seq ops = { 
.start = scull seq start, 

.next = scull seq next, 

.Stop = scull seq stop, 

. Show = scull seq show 


5 








有 那个 结构 在 ， 我 们 必须 创建 一 个 内 核 理解 的 文件 实现 .我 们 不 使 用 前 面 描述 过 的 

read proc 方法 ; 在 使 用 seq file 时 ， 最 好 在 一 个 稍 低 的 级 别 上 连接 到 /proc， 那 意味 
着 创建 一 个 file operations 结构 (是 的 ， 和 字符 驱动 使 用 的 同样 结构 ) 来 实现 所 有 内 核 
需要 的 操作 ， 来 处 理 文件 上 的 读 和 移动 .幸运 的 是 ， 这 个 任务 是 简单 的 ， 第 一 步 是 创建 一 
个 open 方法 连接 文件 到 seq file 操作 : 












































static int scull proc open(struct inode *inode, struct file *file) 
{ 
return seq open(file, &scull seq ops); 


j 





调用 seq open 连接 文件 结构 和 我 们 上 面 定 义 的 序列 操作 ， 事 实证 明 ，open 是 我 们 必须 
自己 实现 的 唯一 文件 操作 ， 因 此 我 们 现在 可 以 建立 我 们 的 file operations 结构 : 





static struct file operations scull proc ops = { 
.owner = THIS MODULE, 

.open = scull proc open, 

.read = seq read, 

.llseek = seq lseek, 

.release = seq release 
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这 里 我 们 指定 我 们 自己 的 open 方法 ， 但 是 使 用 预 装 好 的 方法 seq read, seq lseek, 4i 


seq release 给 其 他 . 























最 后 的 步骤 是 创建 /proc 中 的 实际 文件 : 


entry = create proc entry(^scullseq', 0, NULL); 
if (entry) 
entry-»5proc fops = &scull proc ops; 





不 是 使 用 create proc read entry， 我 们 调用 低层 的 create proc entry, RAJA IXA 
原型 : 


struct proc dir entry *create proc entry(const char *name, mode t mode, struct 
proc dir entry *parent); 


参数 和 它们 的 在 create proc read entry 中 的 对 等 体 相 同 : 文件 名 子 ， 它 的 位 置 ， 以 及 
父 目录 . 





有 了 上 面 代 码 ，scull 有 一 个 新 的 /proc 入 口 ， 看 来 很 象 前 面 的 一 个 .但 是 ， 它 是 高 级 
的 ， 因 为 它 不 管 它 的 输出 有 多 么 大 ， 它 正确 处 理 移 动 ， 并 旦 通常 它 是 易 读 和 易 维 护 的 .我 
们 建议 使 用 seq file ， 来 实现 包含 多 个 非常 小 数目 的 输出 行 数 的 文件 . 



































4.3.2. ioctl 方法 





ioct1， 我 们 在 第 1 章 展示 给 你 如 何 使 用 ， 是 一 个 系统 调用 ， 作 用 于 一 个 文件 描述 符 ; 它 
接收 一 个 确定 要 进行 的 命令 的 数字 和 (可 选 地 ) 另 一 个 参数 ， 常 常 是 一 个 指针 ， 作 为 一 个 使 
用 /proc 文件 系统 的 奉 代 ， 你 可 以 实现 几 个 用 来 调试 用 的 ioctl ME. 这 些 命令 可 以 从 
驱动 拷贝 相关 的 数据 结构 到 用 户 空间 ， 这 里 你 可 以 检查 它们 . 





















































这 种 方式 使 用 ioctl 来 获取 信息 有 些 比 使 用 /proc 困难 ， 因 为 你 需要 男 一 个 程序 来 发 出 
ioctl 并 且 显 示 结 果 ， 必须 编写 这 个 程序 ， 编 译 ， 并 且 与 你 在 测试 的 模块 保持 同步 ， 另 一 
方面 ， 驱 动 侧 代 码 可 能 容易 过 需要 实现 一 个 /proc 文件 的 代码 . 























有 时候 ioctl 是 获取 信息 最 好 的 方法 ， 因 为 它 运 行 比 读 取 /proc 快 ， 如 果 在 数据 写 到 屏 
幕 之 前 必须 做 一 些 事情 ， 获 取 二 进 制 形式 的 数据 比 读 取 一 个 文本 文件 要 更 有 效 . 男 外 ， 
ioctl 不 要 求 划分 数据 为 小 于 一 页 的 片段 . 











ioctl 方法 的 另 一 个 有 趣 的 优点 是 信息 获取 命令 可 留 在 驱动 中 ， 当 调试 被 禁止 时 ， 不 象 对 
任何 但 看 目录 的 人 (并 且 太 多 人 可 能 奇怪 这 个 怪 文 件 是 什么 ”) 都 可 见 的 /proc 文件 ， 不 
记 入 文档 的 ioctl 命令 可 能 保持 不 为 人 知 ， 另 外 ， 如 果 驱 动 发 生 了 怪异 的 事情 ， 它 们 仍 
将 在 那里 ， 唯 一 的 缺点 是 模块 可 能 会 稍微 大 些 . 


4. 4， 使 用 观察 来 调试 


有 时 小 问题 可 以 通过 观察 用 户 空 间 的 应 用 程序 的 行为 来 奶 踪 .监视 程序 也 有 助 于 建立 对 了 驱 
动 正 确 工作 的 信心 ， 例 如 ， 我 们 能 够 对 scull 感到 有 信心 ， 在 看 了 它 的 读 实现 如 何 响应 
不 同 数 量 数据 的 读 请 求 之 后 . 
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有 几 个 方法 来 监视 用 户 空间 程序 运行 ， 你 可 以 运行 一 个 调试 器 来 单 步 过 它 的 函数 ， 增 加 打 
印 语句 ， 或 者 在 strace 下 运行 程序 ， 这里， 我 们 将 讨论 最 后 一 个 技术 ， 当 真正 目的 是 检 
查 内 核 代码 时 它 是 最 有 趣 的 . 














strace 命令 时 一 个 有 力 工具 ， 显 示 所 有 的 用 户 空 间 程 序 发 出 的 系统 调用 . A 
用 ， 还 以 符号 形式 显示 调用 的 参数 和 返回 值 ， 当 一 个 系统 调用 失败 ， 错 误 的 符号 值 (例如 ， 
ENOMEM) 和 对 应 的 字 串 (Out of memory) 都 显示 . strace 有 很 多 命 TRE: 其 中 最 有 用 
的 是 -t 来 显示 每 个 调用 执行 的 时 间 ，-T 来 显示 调用 中 花费 的 时 间 ，-e 来 限制 被 跟踪 调 
用 的 类 型 ， 以 及 -o 来 重 定 向 输出 到 一 个 文件 ， 缺 省 地 ，strace 打印 调用 信息 到 stderr. 






































strace 从 内 核 自 身 获 取信 息 . 这 意味 着 可 以 跟踪 一 个 程序 ， 不 管 它 是 否 带 有 调试 文 持 编 
译 ( 对 gcc 是 -g 选项 ) 以 及 不 管 它 是 否 strip 过 ， 你 也 可 以 连接 追踪 到 一 个 运行 中 的 进 
程 ， 类 似 于 一 个 调试 器 的 方式 连接 到 一 个 运行 中 的 进程 并 控制 它 . 

















跟踪 信息 常用 来 支持 发 给 应 用 程序 开发 者 的 故障 报告 ， 但 是 对 内 核 程 序 员 也 是 很 有 价值 的 . 
我 们 已 经 看 到 张 动 代 码 运行 如 何 响应 系统 调用 ; imis 允许 我 们 检查 每 个 调用 的 输入 和 
输出 数据 的 一 致 性 . 











例如 ， 下 面 的 屏幕 输出 显示 (大 部 分 ) 运行 命令 strace ls /dev > /dev/scullO 的 最 后 的 
行 : 


open ("/dev^, 0 RDONLY|O NONBLOCK|O LARGEFILE|O DIRECTORY) = 3 
fstat64(3, {st mode-S IFDIR|0755, st size-24576, ...]) = 0 


fcntl64(3, F SETFD, FD CLOEXEC) = 0 
getdents64(3, /* 141 entries */, 4096) = 4088 


Lesa] 

getdents64(3, /* 0 entries */, 4096) =0 

close(3) =0 

[...] 

fstat64(1, {st mode=S IFCHR|0664, st rdev=makedev (254, 0), ...})=0 
write(1, “MAKEDEV\nadmmidi0\nadmmidil\nadmmid”..., 4096) = 4000 
write(l, ”b\nptywc\nptywd\nptywe\nptywf\nptyx0\n”..., 96) = 96 
write(l, ”b\nptyxc\nptyxd\nptyxe\nptyxf\nptyy0\n”..., 4096) = 3904 


write(1, “sl7\nvesl8\nvesl9\nves2\nves20\nves21”..., 192) = 192 
write(1, ”\nvcs47\nvcs48\nvcs49\nvcs5\nvces50\nvc”..., 673) = 673 
close(1) = 0 

exit group(0) = ? 














从 第 一 个 write 调用 看 ， 明 显 地 ， 在 1s 结束 查看 目标 目录 后 ， 它 试图 写 4KB. 奇怪 地 
(对 1s)， 只 有 4000 字 节 写 入 ， 并 且 操 作 被 重复 ， 但 是 ， 我 们 知道 scull 中 的 写实 现 一 
次 写 一 个 单个 量子 ， 因 此 我 们 本 来 就 期 望 部 分 写 ， 几 步 之 后 ， 所 有 东西 清空 ， 程 序 成 功 退 
出 . 


























作为 另 一 个 例子 ， 让 我 们 读 取 scull 设备 (使 用 wc 命令 ) : 
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PI 

open ("/dev/scull0^, 0 RDONLY|O LARGEFILE) = 3 

fstat64(3, {st mode-S IFCHR|0664, st rdev-makedev(254, 0), ...]) - O 
read(3, "MAKEDEVMXnadmmidiOWNnadmmidilNnadmmid^..., 16384) = 4000 
read(3, ”b\nptywc\nptywd\nptywe\nptywf\nptyx0\n”..., 16384) = 4000 


read(3, ”s17\nvces18\nvces19\nvces2\nvcecs20\nvcs21”..., 16384) = 865 
read(3, ^^, 16384) = 0 


fstat64(1, {st mode-S IFCHR|0620, st rdev-makedev(136, 1), ...)) » 0 
write(1l, ^8865 /dev/scullO Wn", 17) = 17 
close(3) = 0 


exit group(0) = ? 





如 同期 望 的 ，read 一 次 只 能 获取 4000 字 节 ， 但 是 数据 总 量 等 同 于 前 个 例子 写 入 的 . $E 
意 在 这 个 例子 里 读 取 是 如 何 组 织 的 ， 同 前 面 跟踪 的 相反 .wc 为 快速 读 被 优化 过 ， 因 此 绕 
过 了 标准 库 ， 试 图 一 个 系统 调用 读 取 更 多 数据 .你 可 从 跟踪 的 读 的 行 里 看 到 we 是 如 何 试 
图 一 次 读 取 16 KB. 








Linux 专家 能 够 从 strace 的 输出 中 发 现 更 多 有 用 信息 ， 如果 你 不 想 看 到 所 有 的 符号 ， 你 
可 使 用 efile 标志 来 限制 你 自己 仪 查 看 文件 方法 是 如 何 工 作 的 . 




















就 个 人 而 言 ， 我 们 发 现 strace 对 于 奋 明 系统 调用 的 运行 时 错误 是 非常 有 用 ， 和 常常 是 应 用 
程序 或 演示 程序 中 的 perror 调用 不 足够 详细 ， 并 且 能 够 确切 说 出 哪个 系统 调用 的 哪个 参 
数 触发 了 错误 是 非常 有 帮助 的 . 


4. 5， 调 试 系统 故障 


即便 你 已 使 用 了 所 有 的 监视 和 调试 技术 ， 有 时 故障 还 留 在 驱动 里 ， 当 驱动 执行 时 系统 出 错 . 
当 发 生 这 个 时 ， 能 够 收集 尽 可 能 多 的 信息 来 解决 问题 是 重要 的 . 















































注意 ”故障 “不 意味 着 ” 崩 江 .Linux 代码 是 足够 健 间 地 优雅 地 响应 大 部 分 错误 :一 个 故障 
常常 导致 当前 进程 的 破坏 而 系统 继续 工作 ， 系 统 可 能 裔 溃 ， 如 果 一 个 故障 发 生 在 一 个 进程 
的 上 下 文 之 外 ， 或 者 如 果 系 统 的 一 些 至 关 重 要 的 部 分 毁坏 了 ， 但 是 当 是 一 个 驱动 错误 导致 
的 问题 ， 它 常常 只 会 导致 不 垃 使 用 驱动 的 进程 的 突然 死 掉 ， 当 进程 被 销毁 时 唯一 无 法 恢复 
的 破坏 是 分 配给 进程 上 下 文 的 一 些 内 存 丢 失 了 ; 例如 ， 了 驱动 通过 kmalloc 分 配 的 动态 列 
表 可 能 丢失 . 但 是 ， 因 为 内 核 为 任何 一 个 打开 的 设备 在 进程 死亡 时 调用 关闭 操作 ， 你 的 驱 
动 可 以 释放 由 open 方法 分 配 的 东西 . 





















































尽管 一 个 oops 常常 都 不 会 关闭 整个 系统 ， 你 很 有 可 能 发 现在 发 生 一 次 后 需要 重启 系统 . 
一 个 满 是 错误 的 驱动 能 使 硬件 处 于 不 能 使 用 的 状态 ， 使 内 核资 源 处 于 不 一 致 的 状态 ， 或 者 ， 
最 坏 的 情况 ， 在 随机 的 地 方 破坏 内 核 内 存 ， 第 常 你 可 简单 地 郝 载 你 的 破 驱 动 并 且 在 一 次 
oops 后 重 试 ， 然 而， 如 果 你 看 到 任何 东西 建议 说 系统 作为 一 个 整体 不 太 好 了 ， 你 最 好 立 
刻 重 局 . 
































我 们 已 经 说 过 ， 当 内 核 代 码 出 错 ， 一 个 提示 性 的 消息 打印 在 控制 台 上 ， 下 一 节 解 释 如 何 解 
释 并 利用 这 样 的 消息 ,尽管 它们 对 新 手 看 来 相当 模糊 ， 处 理 器 转 储 是 很 有 趣 的 信息 ， 篆 常 
足够 来 查 明 一 个 程序 错误 而 不 需要 附加 的 测试 . 
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4.5.1. oops 消息 











大 部 分 bug 以 解 引 用 NULL 指针 或 者 使 用 其 他 不 正确 指针 值 来 表现 自己 的 ， 此 类 bug XÉ 
常 的 输出 是 一 个 oops 消息 . 


























处 理 器 使 用 的 任何 地 址 几乎 都 是 一 个 虚拟 地 址 ， 通 过 一 个 复杂 的 页 表 结 构 映 射 为 物理 地 址 
(例外 是 内 存 管理 子 系统 自己 使 用 的 物理 地 址 )， 当 解 引 用 一 个 无 效 的 指针 ， 分 页 机 人 制 无 法 
映射 指针 到 一 个 物理 地 址 ， 处 理 器 发 出 一 个 页 错误 给 操作 系统 .如果 地 址 无 效 ， 内 核 无 法 
“页 入 “缺失 的 地 址 ; E (常常 ) 产 生 一 个 oops 如 果 在 处 理 器 处 于 管理 模式 时 发 生 这 个 情况 . 













































































一 个 oops 显示 了 出 错时 的 处 理 器 状态 ， 包 括 CPU 寄存 器 内 容 和 其 他 看 来 不 可 理解 的 信息 . 
消息 由 错误 处 理 的 printk 语句 产生 ( arch/*/kernel/traps.c ) 并 且 如 同 前 面 “printk” 
一 节 中 描述 的 被 分 派 . 


























我 们 看 一 个 这 样 的 消息 ， 这 是 来 自在 运行 2.6 内 核 的 PC 上 一 个 NULL 指针 导致 的 结果 . 
这 里 最 相关 的 信息 是 指令 指针 (EIP)， 错 误 指令 的 地 址 . 











Unable to handle kernel NULL pointer dereference at virtual address 00000000 
printing eip: 

d083a064 

Oops: 0002 [#1] 

SMP 

CPU: 0 

EIP: 0060:[€4d083a064»] Not tainted 

EFLAGS: 00010246 (2.6.6) 

EIP is at faulty write*0x4/0x10 [faulty] 

eax: 00000000 ebx: 00000000 ecx: 00000000 edx: 00000000 
esi: cf8b2460 edi: cf8b2480 ebp: 00000005 esp: c3lc5f74 
ds: 007b es: 007b ss: 0068 


Process bash (pid: 2086, threadinfo-c31c4000 task-cfa0a6c0) 
Stack: c0150558 cf8b2460 080e9408 00000005 cf8b2480 00000000 cf8b2460 cf8b2460 
fffffff7 080e9408 c31c4000 c0150682 cf8b2460 080e9408 00000005 cf8b2480 
00000000 00000001 00000005 c0103f8f 00000001 080e9408 00000005 00000005 
Call Trace: 

[£c0150558»] vfs write*O0xb8/0x130 

[£c0150682»] sys write*0x42/0x70 

[<c0103f8f>] syscall call+0x7/0xb 





Code: 89 15 00 00 00 00 c3 90 8d 74 26 00 83 ec 0c b8 00 a6 83 d0 





写 入 一 个 由 坏 模块 拥有 的 设备 而 产生 的 消息 ， 一 个 故意 用 来 演示 失效 的 模块 . faulty.c 
的 write 方法 的 实现 是 琐 细 的 : 








ssize t faulty write (struct file *filp, const char user *buf, size t count, 
loff t *pos) 
{ 
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/* make a simple fault by dereferencing a NULL pointer */ 
*(int *)0 = 0; 
return 0; 


j 


如 你 能 见 ， 我 们 这 里 做 的 是 解 引用 一 个 NULL 指针 .因为 0 一 直 是 一 个 无 效 的 指针 值 ， 
一 个 错误 发 生 ， 由 内 核 转变 为 前 面 展 示 的 oops 消息 ， 调 用 进程 接着 被 杀 措 ， 





错误 模块 有 不 同 的 错误 情况 在 它 的 读 实现 中 : 


ssize t faulty read(struct file *filp, char user *buf, size t count, loff t 
*pos) 
{ 

int ret; 

char stack buf[4]; 


/* Let's try a buffer overflow */ 
memset(stack buf, Oxff, 20); 
if (count > 4) 


count = 4; /* copy 4 bytes to the user */ 
ret = copy to user(buf, stack buf, count); 
if (!ret) 


return count; 
return ret; 


j 











这 个 方法 捞 贝 一 个 字 串 到 一 个 本 地 变量 ; De FEKTER. RAR Iuli] Sy 
致 的 缓存 区 洪 出 引起 一 次 oops. 因为 返回 指令 使 指令 指针 到 不 知 何 处 ， 这 类 的 错误 很 难 
跟踪 ， 并 且 你 得 到 如 下 的 : 





EIP: 0010:[«400000000» ] 
Unable to handle kernel paging request at virtual address ffffffff 


printing eip: 

ffffffff 

Oops: 0000 [#5] 

SMP 

CPU: 0 

EIP: 0060:[<ffffffff>] Not tainted 

EFLAGS: 00010296 (2.6.6) 

EIP is at Oxffffffff 

eax: 0000000c ebx: ffffffff ecx: 00000000 edx: bfffdaTc 
esi: cf434f00 edi: ffffffff ebp: 00002000 esp: c2TfffT78 
ds: 007b es: 007b ss: 0068 


TT 
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Process head (pid: 2331, threadinfo-c27fe000 task-c3226150) 
Stack: ffffffff bfffda70 00002000 cf434f20 00000001 00000286 cf434f00 fffffffT7 
bfffda70 c2Tfe000 c0150612 cf434f00 bfffda70 00002000 cf434f20 00000000 
00000003 00002000 c0103f8f 00000003 bfffda70 00002000 00002000 bfffda70 
Call Trace: [4601506125] sys read*0x42/0x70 [<c0103f8f>] syscall call+0x7/0xb 
Code: Bad EIP value. 


这 个 情况 ， 我 们 只 看 到 部 分 的 调用 堆栈 ( vfs read 和 faulty read 丢失 )， 内 核 抱怨 一 
个 “ 坏 EIP fH^. 这 个 抱怨 和 在 开头 列 出 的 犯错 的 地 址 ( ffffffff ) 都 暗示 内 核 堆 栈 已 
被 破坏 . 


通常 ， 当 你 面 对 一 个 oops， 第 一 件 事 是 查看 发 生 问 题 的 位 置 ， 常 常 与 调用 堆栈 分 开 列 出 . 
在 上 面 展示 的 第 一 个 oops， 相 关 的 行 是 : 





EIP is at faulty write*0x4/0x10 [faulty] 





这 里 我 们 看 到 ， 我 们 曾 在 函数 faulty write, CMTF faulty 模块 ( 在 方 括号 中 列 出 
WI). 16 进 制 数 指示 指令 指针 是 函数 内 4 字 节 ， 函 数 看 来 是 10 ( 16 进 制 ) 学 节 长 . 
常常 这 就 足够 来 知道 问题 是 什么 . 














如 果 你 需要 更 多 信息 ， 调 用 堆栈 展示 给 你 如 何 得 知 在 哪里 坏事 的 .堆栈 自己 是 16 机 制 形 
式 打印 的 ; 做 一 点 工作 ， 你 经 常 可 以 从 堆栈 的 列表 中 决定 本 地 变量 的 值 和 函数 参数 ， 有 经 
验 的 内 核 开 发 者 可 以 从 这 里 的 某 些 模式 识别 中 获 益 ; 例如 ， 如 果 你 看 来 自 faulty read 
oops 的 堆栈 列表 : 











Stack: ffffffff bfffda70 00002000 cf434f20 00000001 00000286 cf434f00 fffffff? 
bfffda70 c27fe000 c0150612 cf434f00 bfffda70 00002000 cf434f20 00000000 
00000003 00002000 c0103f8f 00000003 bfffda70 00002000 00002000 bfffda70 


堆栈 顶部 的 ffffffff 是 我 们 坏事 的 字 串 的 一 部 分 . 在 x86 体系 ， 缺 省 地 ， 用 户 空间 扒 
栈 开 始 于 0xc0000000; 因此 ， 循 环 值 Oxbfffda70 可 能 是 一 个 用 户 扒 栈 地 址 ; 实际 上 ， 

它 是 传递 给 read 系统 调用 的 缓存 地 址 ， 每 次 下 传 过 系统 调用 链 时 都 被 复制 ， 在 x86 (又 
一 次 ， 缺 省 地 )， 内 核 空间 开始 于 0xc0000000， 因 此 这 个 之 上 的 值 几 乎 肯定 是 内 核 空间 的 


地 址 ， 等 等 . 





最 后 ， 当 看 一 个 oops 列表 ， 一 直 监 视 本 章 开始 讨论 的 “slab 毒害“ 值 . 例如 , 如 果 你 得 到 
一 个 内 核 oops， 里 面 的 犯错 地 址 时 0xa5a5a5a5a5， 你 几乎 肯定 - 某 个 地 方 在 初始 化 动 
态 内 存 . 





请 注意 ， 只 在 你 的 内 核 是 打开 CONFIG KALLSYMS 选项 而 编译 时 可 以 看 到 符号 的 调用 堆栈 . 
否则 ， 你 见 到 一 个 裸 的 ，16 机 制 列表 ， 除 非 你 以 别 的 方式 对 其 解码 ， 它 是 远 远 无 用 的 . 


4.5.2. 系统 挂 起 
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尽管 内 核 代码 的 大 部 分 bug 以 oops 消息 结束 ， 有 时 候 它们 可 能 完全 挂 起 系统 如果 系 

没有 消息 打印 ， 例 如， 如 果 代 码 进入 一 个 无 限 循 环 ， 内 核 停止 调度 , ”并 且 系 

统 不 会 响应 任何 动作 ， 包 括 魔术 Ctrl-Alt-Del 组 合 键 . 你 有 2 个 选择 来 处 理 系统 挂 起 - 
- 或 者 事先 阻止 它们 ”或 者 能 够 事后 调试 它们 




















你 可 阻止 无 限 循 环 通 过 插入 schedule 引用 在 战略 点 上 . schedule 调用 ( 如 你 可 能 猜 到 
的 ) 调 度 器 ， 因 此 ， 人 允许 别 的 进程 从 当前 进程 偷 取 CPU 数据 ， 如 果 一 个 进程 由 于 你 的 驱 
动 的 bug 而 在 内 核 空间 循环 ，schedule 调用 使 你 能 够 杀 掉 进程 在 跟踪 发 生 了 什么 之 后 . 











你 应 当知 道 ， 当 然 ， 如 何 对 schedule 的 调用 可 能 创造 一 个 附加 的 重 入 调用 源 到 你 的 驱动 ， 
因为 它 允 许 别 的 进程 运行 ， 这 个 重 入 正常 地 不 应 当 是 问题 ， 假 定 你 在 你 的 驱动 中 已 经 使 用 
了 合适 的 加 锁 ， 然 而， 要 确认 在 你 的 驱动 持 有 一 个 自 旋 锁 的 任何 时 间 不 能 调用 schedule. 






































如 果 你 的 驱动 真正 挂 起 了 系统 ， 并 且 你 不 知道 在 哪里 插入 schedule 调用 ， 最 好 的 方式 是 
加 入 一 些 打印 消息 并 且 写 到 控制 台 (如果 需要 ， 改 变 console loglevel 值 ). 





有 了 时候 系 统 可 能 看 来 被 挂 起 ， 但 是 没有 ， 例 如， 这 可 能 发 生 在 键盘 以 茶 个 奇怪 的 方式 保持 
锁 住 的 时 候 ， 这 些 假 挂 起 可 通过 查看 你 为 此 目的 运行 的 程序 的 输出 来 检测 .一 个 你 的 显示 
器 上 的 时 钟 或 者 系统 负载 表 是 一 个 好 的 状态 监控 器 ; 只 要 他 继续 更 新 ， 调 度 器 就 在 工作 . 

















对 许多 的 上 锁 一 个 必 不 可 少 的 工具 是 “魔术 sysrq 键 ， 在 大 部 分 体系 上 都 可 用 ， 魔 键 
sysrq 是 PC 键盘 上 alt 和 sysrq 键 组 合 来 发 出 的 ， 或 者 在 别 的 平台 上 使 用 其 他 特殊 键 
(EJIL documentation/sysrq. txt)， 在 串口 控制 台 上 也 可 用 .一 个 第 三 键 ， 与 这 2 个 一 
起 按 下 ， 进 行 许 多 有 用 的 动作 中 的 一 个 : 

















r 关闭 键盘 原始 模式 ; Hee T RUNE C 例如 X 服务 器 ) 可 能 将 你 的 键盘 搞 成 
一 个 奇怪 的 状态 . 


k 调用 “安全 注意 键 ”%( SAK ) 功能 ，SAK 杀 措 在 当前 控制 台 的 所 有 运行 的 进程 ， 给 你 一 个 
干净 的 终端 . 


s 进行 一 个 全 部 磁盘 的 紧急 同步 . 


u umount， 试 图 重新 加 载 所 有 磁盘 在 只 读 模式 ， 这 个 操作 ， 常 常 在 s 之 后 马上 调用 ， 可 
以 节省 大 量 的 文件 系统 检查 时 间 ， 在 系统 处 于 严重 麻烦 时 . 























b boot. 立刻 重 局 系统 ， 确 认 先 同步 和 重新 加 载 磁盘 . 





p 打印 处 理 器 消息 . 





t 打印 当前 任务 列表 . 
m 打印 内 存 信息 . 








15 [15] 












































实际 上 ， 多 处 理 器 系统 仍然 在 其 他 处 理 器 上 调度 ， 甚 至 一 个 单 处 理 器 的 机 器 可 能 重新 调度 ， 如 果 内 核 抢占 被 使 能 . 
然而 ， 对 于 大 部 分 的 通常 的 情况 ( 单 处 理 器 不 使 能 抢占 )， 系 统一 起 停止 调度 . 
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有 别 的 魔术 sysrq 功能 存在 ; 完整 内 容 看 内 核 源 码 的 文档 目录 中 的 sysrq. txt， 注 意 魔 
AR sysrq 必须 在 内 核 配置 中 显 式 使 能 ， 大 部 分 的 发 布 没有 使 能 它 ， 因 为 明显 的 安全 理由 ， 
对 于 用 来 开发 驱动 的 系统 ， 然 而 ， 使 能 魔术 sysrq 值得 为 它 自 己 建 立 一 个 新 内 核 的 麻烦 . 
魔术 sysrq 可 能 在 运行 时 关闭 ， 使 用 如 下 的 一 个 命令 : 
































一 











echo 0 > /proc/sys/kernel/sysrq 


如 果 非 特权 用 户 能 够 接触 你 的 系统 键盘 ， 你 应 当 考 虑 关闭 它 ， 来 阻止 有 意 或 无 意 的 损坏 . 
一 些 以 前 的 内 核 版 本 缺 省 关闭 sysrq， 因 此 你 需要 在 运行 时 使 能 它 ， 通 过 向 同样 的 
/proc/sys 文件 写 入 1. 








sysrq 操作 是 非常 有 用 ， 因 此 它们 已 经 对 不 能 接触 到 控制 台 的 系统 管理 员 可 用 . 文件 
/proc/sysrq-trigger 是 一 个 只 写 的 入 口 点 ， 这 里 你 可 以 触发 一 个 特殊 的 sysrq 动作 ， 
通过 写 入 关联 的 命令 字符 ; 接着 你 可 收集 内 核 日 志 的 任何 输出 数据 ， 这 个 sysrq WAE 
点 是 一 直 工 作 的 ， 即 便 sysrq 在 控制 台 上 被 关闭 . 

















如 果 你 经 历 一 个 " 活 挂 ， 就 是 你 的 驱动 粘 在 一 个 循环 中 ， 但 是 系统 作为 一 个 整体 功能 正 销 ， 
有 几 个 技术 值得 了 解 . 经常 地 ，sysrq p 功能 直接 指向 出 错 的 函数 .如 果 这 个 不 行 ， 你 还 
可 以 使 用 内 核 剖 析 功 能 .建立 一 个 打开 齐 析 的 内 核 ， 并 且 用 命令 行 中 profile=2 来 启动 
w. 使 用 readprofile 工具 复位 剖析 计数 器 ， 接 着 使 你 的 驱动 进入 它 的 循环 ， 一 会 儿 后 ， 
使 用 readprofile 来 看 内 核 在 哪里 消耗 它 的 时 间 . 男 一 个 更 高 级 的 选择 是 oprofile， 你 
可 以 也 考虑 下 .文件 documentation/basic profiling. txt 告诉 你 启动 剖析 器 所 有 需要 
知道 的 东西 . 
































在 退 逐 系统 挂 起 时 一 个 值得 使 用 的 防范 措施 是 以 只 读 方 式 加 载 你 的 磁盘 (或 者 色 载 它们 ). 
如 果 人 磁盘 是 只 读 或 者 外 载 的 ， 就 没有 风险 损坏 文件 系统 或 者 使 它 处 于 不 一 致 的 状态 ， 另 外 
的 可 能 性 是 使 用 一 个 通过 NFS， 网 络 文件 系统 ， 来 加 载 它 的 全 部 文件 系统 的 计算 机 ， 内 核 
的 “NFS-Root” 功 能 必须 打开 ， 在 启动 时 必须 传递 特殊 的 参数 .在 这 个 情况 下 ， 即 便 不 依靠 
sysrq 你 也 会 避免 文件 系统 破坏 ， 因 为 文件 系统 的 一 致 有 NES 服务 器 来 管理 ， 你 的 设备 
驱动 不 会 关闭 它 . 


4.6. 调试 器 和 相关 工具 


调试 模块 的 最 后 手段 是 使 用 调试 器 来 单 步 调试 代码 ， 查 看 变量 值 和 机 器 寄存 器 ， 这 个 方法 
费时 ， 应 当 尽 量 避 免 ， 但是， 通过 调试 器 获得 的 代码 的 细 粒 度 视 角 有 时 是 很 有 价值 的 . 



































在 内 核 上 使 用 一 个 交互 式 调 试 器 是 一 个 挑战 ， 内 核 代 表 系 统 中 的 所 有 进程 运行 在 自己 的 地 
址 空间 ， 结 果 ， 用 户 空 间 调试 器 所 提供 的 一 些 普 通 功能 ， 例 如 断 点 和 单 步 ， 在 内 核 中 更 难 
得 到 ， 本 节 中 ， 我 们 看 一 下 几 个 调试 内 核 的 方法 ; 每 个 都 有 缺点 和 优点 . 











4.6.1. 使 用 gdb 


gdb 对 于 看 系统 内 部 是 非常 有 用 .在 这 个 级 别 精 通 调试 器 的 使 用 要 求 对 gdb 命令 有 信心 ， 
需要 理解 目标 平台 的 汇编 代码 ， 以 及 对 应 源码 和 优化 的 汇编 码 的 能 
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调试 器 必须 把 内 核 作 为 一 个 应 用 程序 来 调用 ， 除 了 指定 内 核 映 象 的 文件 名 之 外 ， 你 需要 在 
命令 行 提供 一 个 核心 文件 的 名 子 . 对 于 一 个 运行 的 内 核 ， 核 心 文件 是 内 核 核 心 映 象 ， 
/proc/kcore. 一 个 典型 的 gdb 调用 看 来 如 下 : 





gdb /usr/src/linux/vmlinux /proc/kcore 


第 一 个 参数 是 非 压缩 的 ELF 内 核 可 执行 文件 的 名 子 ， 不 是 zImage 或 者 bzlmage 或 者 给 
局 动 环 境 特别 编译 的 任何 东 东 . 








gdo 命令 行 的 第 二 个 参数 是 核心 文件 的 名 子 ， 如同 任何 /proc 中 的 文件 ，/proc/kcore 

是 在 被 读 的 时 候 产 生 的 ， 当 read 系统 调用 在 /proc 文件 系统 中 执行 时 ， 它 映射 到 一 个 
数据 产生 函数 , 而 不 是 一 个 数据 获取 函数 ; 我 们 已 经 在 本 章 “使 用 /proc 文件 系统 "一 节 中 
利用 了 这 个 特点 ，kcore 用 来 代表 内 核 " 可 执行 文件 ， 以 一 个 核心 文件 的 形式 ; 它 是 一 个 
巨大 的 文件 ， 因 为 他 代表 整个 的 内 核 地 址 空间 ， 对 应 于 所 有 的 物理 内 存 . 从 gdb 中 ， 你 
可 查看 内 核 变 量 , 通过 发 出 标准 gdb 命令 . 例如 ，p jiffies 打印 时 钟 的 从 启动 到 当前 时 
TR] FS i MA Žr. 



































当 你 从 gdb 打印 数据 ， 内 核 仍然 在 运行 ， 各 种 数据 项 在 不 同时 间 有 不 同 的 值 ， 然 而 ，gdb 
通过 缓存 已 经 读 取 的 数据 来 优化 对 核心 文件 的 存 取 ， 如 果 你 试图 再 次 查看 jiffies 变量 ， 
你 会 得 到 和 以 前 相同 的 答案 ， 缓 存 值 来 避免 额外 的 磁盘 存 取 对 传统 核心 文件 是 正确 的 做 法 ， 





























但 是 在 使 用 一 个 “动态 “核心 映 象 时 就 不 方便 ， 解 决 方法 是 任何 时 候 你 需要 刷新 gdb 缓存 
时 发 出 命令 core-file /proc/kcore; 调试 器 准备 好 使 用 新 的 核心 文件 并 且 丢弃 任何 旧 信 
E. 然而， 你 不 会 一 直 需 要 发 出 core-file 在 读 取 一 个 新 数据 时 ; gdo 读 取 核心 以 多 个 
JL KB 的 块 的 方式 ， 并 且 只 缓存 它 已 经 引用 的 块 . 



































gdb 通常 提供 的 不 少 功能 在 你 使 用 内 核 时 不 可 用 . 例如 ，gdb 不 能 修改 内 核 数据 ; CPE 
在 操作 内 存 前 在 它 自己 的 控制 下 运行 一 个 被 调试 的 程序 ， 也 不 可 能 设置 断 点 或 观察 点 ， 或 
者 单 步 过 内 核 函 数 ， 











注意 ， 为 了 给 gdb 符号 信息 ， 你 必须 设置 CONFIG DEBUG INFO 来 编译 你 的 内 核 . 结果 是 
一 个 很 大 的 内 核 映 象 在 磁盘 上 ， 但 是 ， 没 有 这 个 信息 ， 深 入 内 核 变量 几乎 不 可 能 . 




















有 了 调试 信息 ， 你 可 以 知道 很 多 内 核 内 部 的 事情 .gdb 愉快 地 打印 出 结构 ， 跟 随 指针 ， 等 
等 ， 而 有 一 个 事情 比较 难 ， 然 而 ， 是 检查 modules， 因 为 模块 不 是 传递 给 gdb 的 vmlinux 
映 象 ， 调 试 器 对 它们 一 无 所 知 ， 垃 运 的 是 ， 作 为 2. 6.7 内核， 有 可 能 教 给 gdb 需要 如 何 
检查 可 加 载 模块 . 

















Linux 可 加 载 模块 是 ELF 格式 的 可 执行 映 象 ;这样 ， 它 们 被 分 成 几 个 节 ， 一 个 典型 的 模 
块 可 能 包含 一 打 或 更 多 节 ， 但 是 有 3 个 典型 的 与 一 次 调试 会 话 相 关 : 


. text 





这 个 节 包含 有 模块 的 可 执行 代码 ， 调 试 器 必须 知道 在 哪里 以 便 能 够 给 出 回溯 或 者 设 
置 断 点 .〈 这 些 操作 都 不 相关 ， 当 运行 一 个 调试 器 在 /proc/kcore 上 ， 但 是 它们 在 
使 用 kgdb 时 可 能 有 用 ， 下 面 描述 ). 
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. data 











这 2 个 节 持 有 模块 的 变量 .在 编译 时 不 初始 化 的 任何 变量 在 .bss 中 ， 而 那些 要 
初始 化 的 在 . data Æ. 








使 gdb 能 够 处 理 可 加 载 模块 需要 通知 调试 器 一 个 给 定 模 块 的 节 加 载 在 哪里 ， 这 个 信息 在 
sysfs 中 ， 在 /sys/module 下 . 例如， 在 加 载 scull 模块 后 ， 目 录 
/sys/module/scull/sections 包含 名 子 为 .text 的 文件 ; 每 个 文件 的 内 容 是 那个 节 的 基 
地 址 . 











我 们 现在 该 发 出 一 个 gdb 命令 来 告诉 它 关 于 我 们 的 模块 ， 我 们 需要 的 命令 是 add- 
symble-flile; 这 个 命令 使 用 模块 目标 文件 名 ，. text 基地 址 作为 参数 ， 以 及 一 系列 描述 
任何 其 他 感 兴趣 的 节 安 放 在 哪里 的 参数 .在 深入 位 于 sysfs 的 模块 节 数 据 后 ， 我 们 可 以 
构建 这 样 一 个 命令 : 














(gdb) add-symbol-file .../scull.ko 0xd0832000 \ 
-s .bss 0xd0837100 \ 
-s . data O0xd0836be0 





我 们 已 经 包含 了 一 个 小 脚本 在 例子 代码 里 ( gdbline )， 它 为 给 定 的 模块 可 以 创建 这 个 命 


4. 

















我 们 现在 使 用 gdb 检查 我 们 的 可 加 载 模 块 中 的 变量 .这 是 一 个 取 自 scull 调试 会 话 的 快 
速 例子 : 


(gdb) add-symbol-file scull.ko 0xd0832000 V 
-s .bss 0xd0837100 \ 

-s . data 0xd0836be0 
add symbol table from file ”scull.ko” at 
.text addr = 0xd0832000 

.bss addr = 0xd0837100 

.data addr = 0xd0836be0 

(y or n) y 
Reading symbols from scull. ko... done. 
(gdb) p scull devices[0] 

$1 = {data = Oxcfd66c50, 

quantum = 4000, 

qset = 1000, 

size - 20881, 

access key = 0, 


- 


这 里 我 们 看 到 第 一 个 scull 设备 当前 持 有 20881 字 节 ， 如 果 我 们 想 ， 我 们 可 以 跟随 数据 
链 ， 或 者 查看 其 他 任何 感 兴趣 的 模块 中 的 东 东 ， 


这 是 另 一 个 值得 知道 的 有 用 技巧 : 
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(gdb) print *(address) 


这 里 ， 填 充 address 指向 的 一 个 16 进 制 地 址 ; 输出 是 对 应 那个 地 址 的 代码 的 文件 和 行 
号 ， 这 个 技术 可 能 有 有用， 例如， 来 找 出 一 个 函数 指针 真正 指向 哪里 . 


我 们 仍然 不 能 进行 典型 的 调试 任务 ， 如 设置 断 点 或 者 修改 数据 ; 为 进行 这 些 操作 ， 我 们 需 
要 使 用 象 kdb( 下 面 描述 ) 或 者 kgdb ( 我 们 马上 就 到 ) 这 样 的 工具 . 


4.6.2. kdb 内 核 调试 器 
许多 读者 可 能 奇怪 为 什么 内 核 没 有 建立 更 多 高 级 的 调试 特性 在 里 面 . 答案 ， 非 常 简单 ， 是 


Linus 不 相信 交互 式 的 调试 器 .他 担心 它们 会 导致 不 好 的 修改 ， 这 些 修改 给 问题 打 了 补丁 
而 不 是 找到 问题 的 真正 原因 ， 因 此， 没有 内 髓 的 调试 器 . 



































其 他 内 核 开 发 者 ， 但 是 ， 见 到 了 交互 式 调试 工具 的 一 个 临时 使 用 .一 个 这 样 的 工具 是 kdb 
ARRARIR, EAKA oss. sgi. com 的 一 个 非 官 方 补丁 ， 要 使 用 kdb， 你 必须 获 

得 这 个 补丁 (确认 获得 一 个 匹配 你 的 内 核 版 本 的 版 本 )， 应 用 它 ， 重 建 并 重 安 装 内 核 . 注意 ， 
直到 本 书 编写 时 ，kdb 只 在 IA-32 (x86) 系统 中 运行 (尽管 一 个 给 IA-64 的 版 本 在 主线 内 核 
版 本 存在 了 一 阵子 ， 在 被 去 除 之 前 . ) 



































一 旦 你 运行 一 个 使 能 了 kdb 的 内 核 ， 有 几 个 方法 进入 调试 器 . 在 控制 台 上 按 下 Pause (或 
者 Break) 键 启动 调试 器 ，kdb 在 一 个 内 核 oops 发 生 时 或 者 命中 一 个 断 点 时 也 启动， 在 
任何 一 种 情况 下 ， 你 看 到 象 这 样 的 一 个 消息 : 





Entering kdb (0xc0347b80) on processor 0 due to Keyboard Entry 
[0]kdb> 











注意 ， 在 kdb 运行 时 内 核 停止 任何 东西 ， 在 你 调用 kdb 的 系统 中 不 应 当 运行 其 他 东西 ; 
寺 别 ， 你 不 应 当 打 开 网 络 一 除非 ， 当 然 ， 你 在 调试 一 个 网 络 驱 动 ， 一 般 地 以 单 用 户 模式 
启动 系统 是 一 个 好 主意 ， 如 果 你 将 使 用 kdb. 





作为 一 个 例子 ， 考 虑 一 个 快速 scull 调 斌 会话， 假设 驱动 已 经 加 载 ， 我 们 可 以 这 样 告 诉 
kdb 在 sucll read 中 设置 一 个 断 点 : 


[0]kdb> bp scull read 

Instruction(i) BP 80 at Oxcd087c5dc (scull read) 
is enabled globally adjust 1 

[0]kdb> go 


bp 命令 告诉 kdb 在 下 一 次 内 核 进入 scull read 时 停止 ， 你 接着 键入 go 来 继续 执行 . 
在 将 一 些 东 西 放 入 一 个 scull 设备 后 ， 我 们 可 以 试 着 通过 在 另 一 个 终端 的 外 壳 下 运行 
cat 命令 来 读 取 它 ， 产 生 下 面 : 





Instruction(i) breakpoint 80 at 0xd087c5dc (adjusted) 
0xd087cbdc scull read: int3 


Entering kdb (current-0xcf09f890, pid 1575) on processor 0 due to 
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Breakpoint @ Oxd087c5dc 
[0] kdb? 


我 们 现在 位 于 scull read 的 开始 .为 看 到 我 们 任何 到 那里 的 ， 我 们 可 以 获得 一 个 堆栈 回 
3n: 


[0]kdb» bt 

ESP EIP Function (args) 

Oxcdbddf74 Oxd087c5dc [scull]scull read 
Oxcdbddf78 0xc0150718 vfs read+0xb8 
Oxcdbddfa4 0xc01509c2 sys read*0x42 
Oxcdbddfc4 0Oxc0103fcf syscall call+0x7 
[0] kdb»? 





kdb 试图 打印 出 调用 回溯 中 每 个 函数 的 参数 .然而 ， 它 被 编译 器 的 优化 技巧 搞 糊 涂 了 . 
此 ， 它 无 法 打印 scull read 的 参数 . 





到 时 候 查 看 一 些 数据 了 ，mds 命令 操作 数据 ; 我 们 可 以 查询 schull devices 指针 的 值 ， 
使 用 这 样 一 个 命令 : 





[0]kdb> mds scull devices 1 
0xd0880de8 cf36ac00 .... 





这 里 我 们 要 求 一 个 (4 字 节 ) 字 ， 起 始 于 scull devices 的 位 置 ; 答案 告诉 我 们 的 设备 数组 
在 地 址 0xd0880de8; 第 一 个 设备 结构 自己 在 Oxcf36ac00. 为 查看 那个 设备 结构 ， 我 们 需 
要 使 用 这 个 地 址 : 




















[0]kdb> mds cf36ac00 

Oxcf36ac00 cel3T7dbc .... 
Oxcf36ac04 00000fa0 .... 
0xcf36ac08 000003e8 .... 
Oxcf36acO0c 0000009b .... 
Oxcf36acl10 00000000 .... 
Oxcf36acl4 00000001 .... 
Oxcf36ac18 00000000 .... 
Oxcf36aclc 00000001 .... 





这 里 的 8 行 对 应 于 scull dev 结构 的 开始 部 分 ， 因 此， 我 们 看 到 第 一 个 设备 的 内 存 位 于 
Oxcel37dbc, quantum 是 4000 (16 进 制 fa0)， 量 子 集 大 小 是 1000 (16 进 制 3e8 ), 4 
前 有 155( 16 进 制 9) 字 节 存 于 设备 中 . 





kdb 也 可 以 改变 数据 ， 假 想 我 们 要 截 短 一 些 数据 从 设备 中 : 


[0jkdb> mm cf26ac0c 0x50 
Oxcf26ac0c = 0x50 


在 设备 上 一 个 后 续 的 cat 会 返回 比 之 前 少 的 数据 . 
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kdb 有 不 少 其 他 功能 ， 包 括 单 步 (指令 ， 不 是 C 源码 的 一 行 )， 在 数据 存 取 上 设置 断 点 ， 
反 汇 编 代码 ， 步 入 链表 ， 存 取 寄 存 嚣 数据， 还 有 更 多 . 在 你 应 用 了 kdb 补丁 后 ， 一 个 完 
整 的 手册 页 集 能 够 在 你 的 源码 树 的 documentation/kdb 下 发 现 . 


4.6.3. kgdb 补丁 








目前 为 止 我 们 看 到 的 2 个 交互 式 调试 方法 ( 使 用 gdb 于 /proc/kcore 和 kdb) 都 缺乏 
应 用 程序 开发 者 已 经 熟悉 的 那 种 环境 ， 如 果 有 一 个 真正 的 内 核 调试 器 文 持 改变 变量 ， 断 点 
等 特色 ， 不 是 很 好 ? 




















确实 ， 有 这 样 一 个 解决 方案 ， 在 本 书 编写 时 ，2 个 分 开 的 补丁 在 流通 中 ， 它 允许 gdb, H 
备 完 全 功能 ， 针 对 内 核 运行 ， 这 2 个 补丁 都 称 为 kgdb. 它们 通过 分 开 运 行 测试 内 核 的 系 
统 和 运行 调试 器 的 系统 来 工作 ; 这 2 个 系统 典型 地 是 通过 一 个 串口 线 连接 起 来 ， 因此， 
开发 者 可 以 在 稳定 地 桌面 系统 上 运行 gdbp， 而 操作 一 个 运行 在 专门 测试 的 盒子 中 的 内 核 . 
这 种 方式 建立 gdb 开始 需要 一 些 时 间 ， 但 是 很 快 会 得 到 回报 , 当 一 个 难 问 题 出 现时 . 

















这 些 补 丁目 前 处 于 健壮 的 状态 ， 在 某 些 点 上 可 能 被 合并 ， 因 此 我 们 避免 说 太 多 ， 除 了 它们 
在 哪里 以 及 它们 的 基本 特色 .鼓励 感 兴趣 的 读者 去 看 这 些 的 当前 状态 . 








第 一 个 kgdb 补丁 当前 在 -mm 内 核 树 里 一 补丁 进入 2.6 主线 的 集结 场 ， 补 丁 的 这 个 版 
本 支持 x86，SuperH，ia64，x86 64， 和 32 位 PPC 体系 .除了 通过 串口 操作 的 常用 模式 ， 
这 个 版 本 的 kgdb 可 以 通过 一 个 局 域 网 通讯 ， 使 能 以 太 网 模式 并 日 使 用 kgdboe 参 数 指定 
发 出 调试 命令 的 IP 地 址 来 启动 内 核 . 在 Documentation/i386/kgdb 下 的 文档 描述 了 如 
何 建立 . [16] 16 
































作为 一 个 选择 ， 你 可 使 用 位 于 http://kgdb. sf. net 的 kgdb 补丁 ， 这 个 调试 器 的 版 本 不 
文 持 网 络 通 讯 模式 (尽管 据说 在 开发 中 )， 但 是 它 确实 有 内 网 的 使 用 可 加 载 模 块 的 支持 . 它 
支持 x86, x86 64，PowerPC， 和 S/390 体系 . 


4.6.4. 用户 模式 Linux 移植 


用 户 模式 Linux (UM) 是 一 个 有 趣 的 概念 ， 它 被 构建 为 一 个 分 开 的 Linux 内 核 移植 ， 有 
它 自己 的 arch/um 子 目 录 . 它 不 在 一 个 新 的 硬件 类 型 上 运行 ， 但 是 ; 相反 ， 它 运行 在 一 
个 由 Linux 系统 调用 接口 实现 的 虚拟 机 上 .， 如 此 ，UML 使 用 Linux 内 核 来 运行 ， 作 为 一 
个 Linux 系统 上 的 独立 的 用 户 模 式 进程 . 















































有 一 个 作为 用 户 进程 运行 的 内 核 找 贝 有 几 个 优点 ， 因 为 它们 运行 在 一 个 受 限 的 虚拟 的 处 理 
器 上 ， 一 个 错误 的 内 核 不 能 破坏 “真实 的 “系统 .可 以 在 同一 台 盒 子 轻易 的 尝试 不 同 的 硬件 
和 软件 配置 ， 并且， 也 许 对 内 核 开 发 者 而 言 ， 用 户 模式 内 核 可 容易 地 使 用 gdb 和 其 他 调 
试 器 操作 . 




















一 个 进程 ，UML 显然 有 加 快 内 核 开 发 的 潜力 . 


才 

si 
nr 
yu 
am 














确实 是 忽略 了 指出 ， 你 应 当 使 你 的 网 络 适 配 卡 建立 在 内 核 中 ， 然 而 ， 和 否则 调试 器 在 启动 时 找 不 到 它 会 关 掉 它 自 








[i 
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然而 ，UML 有 个 大 的 缺点 , 从 驱动 编写 者 的 角度 看 : 用 户 模 式 内 核 无 法 存 取 主 机 系统 的 硬 
件 ， 因 此 ， 虽 然 它 对 于 调试 大 部 分 本 书 的 例子 驱动 是 有 用 的 ，UML 对 于 不 得 不 处 理 真实 硬 
件 的 驱动 的 调试 还 是 没有 用 处 . 











看 http://user-mode-linux. sf. net/ 关于 UML 的 更 多 信息 . 
4.6.5. Linux 追踪 工具 
Linux Trace Toolkit (LTT) 是 一 个 内 核 补丁 以 及 一 套 相 关 工 具 ， 人 允许 追踪 内 核 中 的 事件 . 


这 个 退 踊 包括 时 间 人 信息， 可 以 创建 一 个 给 定时 间 段 内 发 生 事 情 的 合理 的 完整 图 像 ， 因 此 ， 
它 不 仪 用 来 调试 也 可 以 退 踪 性 能 问题 . 














LTT， 同 广泛 的 文档 一 起 ， 可 以 在 http://www. opersys. com/LTT 找到 . 
4. 6. 6， 动 态 探 针 


Dynamic Probes ( DProbes ) 是 由 IBM 发 行 的 (在 GPL 之 下 ) 为 IA-32 体系 的 Linux 
的 调试 工具 它 允 许 安放 一 个 “ 探 针 “在 几乎 系统 中 任何 地 方 ， 用 户 空 间 和 内 核 空间 都 可 以 . 
探 针 由 一 些 代 码 组 成 ( 有 一 个 特殊 的 , 面向 堆栈 的 语言 写成 )， 当 控制 命中 给 定 的 点 时 执行 . 
这 个 代码 可 以 报告 信息 给 用 户 空间 ， 改 变 寄存 器 ， 或 者 做 其 他 很 多 事情 .DProbes 的 有 用 
特性 是 ， 一 旦 这 个 能 力 建 立 到 内 核 中 ， 探 针 可 以 在 任何 地 方 插入 在 一 个 运行 中 的 系统 中 ， 
不 用 内 核 建立 或 者 重启 . DProbes 可 以 和 LTT 一 起 来 插入 一 个 新 的 跟踪 事件 在 任意 位 置 . 
































DProbes 工具 可 以 从 IBM 的 开放 源码 网 站 :http://oss. sof-ware. ibm. com FE. 
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第 5 XX 并 发 和 竞争 情况 
迄今 ， 我 们 未 兽 关 心 并 发 的 问题 一 就 是 说 ， 当 系统 试图 一 次 做 多 件 事 时 发 生 的 情况 .， 然 


而 ， 并 发 的 管理 是 操作 系统 编程 的 核心 问题 之 一 ， 并 发 相关 的 错误 是 一 些 最 易 出 现 又 最 难 
发 现 的 问题 . 即便 是 专家 级 Linux 内 核 程 序 员 偶 尔 也 会 出 现 并 发 相关 的 错误 
































早期 的 Linux 内 核 ， 较 少 有 并 发 的 源头 ， 内 核 不 支持 对 称 多 处 理 器 (SMP) 系统 ， 并 发 执行 
的 唯一 原因 是 硬件 中 断 服务 ， 那 个 方法 提供 了 简单 性 ， 但 是 在 有 越 来 越 多 处 理 器 的 系统 上 
注重 性 能 并 且 坚 持 系 统 要 快速 响应 事件 的 世界 中 它 不 再 可 行 了 ， 为 响应 现代 人 硬件 和 应 用 程 
序 的 要 求 ，Linux 内 核 已 经 发 展 为 很 多 事情 在 同时 进行 ， 这 个 进步 已 经 产生 了 很 大 的 性 能 
和 可 扩展 性 . 然而， 它 也 很 大 地 使 内 核 编程 任务 复杂 化 ， 设备 月 动 程序 员 现在 必须 从 一 开 
台 就 将 并 发 作为 他 们 设计 的 要 素 ， 并 且 他 们 必须 对 内 核 提供 的 并 发 管理 设施 有 很 强 的 理解 . 









































本 章 的 目的 是 开始 建立 那 种 理解 的 过 程 . 为 此 目的 ， 我 们 介绍 一 些 设施 来 立刻 应 用 到 第 3 
章 的 scull 驱动 ， 展 示 的 其 他 设施 暂时 还 不 使 用 . 但 是 首先 ， 我 们 看 一 下 我 们 的 简单 
scull 驱动 可 能 哪里 出 问题 并 且 如 何 避 免 这 些 潜 在 的 问题 . 


5.1. scull 中 的 缺陷 


让 我 们 快速 看 一 段 scull AFEA. ESERE, scull 必须 决定 它 请求 的 内 
存 是 否 已 经 分 配 .处理 这 个 任务 的 代码 是 : 


























if (!dptr->data[s pos]) { 
dptr->data[s pos] = kmalloc(quantum, GFP KERNEL); 
if (!dptr-^data[s pos]) 
goto out; 


j 


假设 有 2 个 进程 ( 我 们 会 称 它们 为 “4” 和 “B”) 独立 地 试图 写 入 同一 个 schull 设备 的 相 
同 偏 移 ， 每 个 进程 同时 到 达 上 面 片 段 的 第 一 行 的 if 测试 ， 如 果 被 测试 的 指针 是 NULL, 
每 个 进程 都 会 决定 分 配 内 存 ， 并 且 每 个 都 会 复制 结果 指针 给 dptr->datatls_pos]. 因为 
2 个 进程 都 在 赋值 给 同一 个 位 置 ， 显 然 只 有 一 个 赋值 可 以 成 功 . 











当然 ， 发 生 的 是 第 2 个 完成 赋值 的 进程 将 “胜出 “， 如果 进程 A 先 赋 值 ， 它 的 赋值 将 被 进 
Fe B Hm. EIk, scull 将 完全 芒 记 A 分 配 的 内 存 ; 它 只 有 指向 B 的 内 存 的 指针 ，A 
所 分 配 的 指针 ， 因 此 ， 将 被 丢掉 并 且 不 再 返回 给 系统 . 
































事情 的 这 个 顺序 是 一 个 竞争 情况 的 演示 竞争 情况 是 对 共享 数据 的 无 控制 存 取 的 结果 ， 当 
普 误 的 存 取 模式 发 生 了 ， 产 生 了 不 希望 的 东西 .对 于 这 里 讨论 的 竞争 情况 ， 结 果 是 内 存 洪 
js. 这 已 经 足够 趟 了 ， 但 是 竞争 情况 常 第 导致 系统 须 溃 和 数据 损坏 ， 程 序 员 可 能 被 诱惑 而 
忽视 竞争 情况 为 相当 低 可 能 性 的 事件 ， 但 是 ， 在 计算 机 世界 ， 百 万 分 之 一 的 事件 会 每 隔 几 
秒 发 生 ， 并 且 后 果 会 是 严重 的 . 
































很 快 我 们 将 去 掉 scull 的 竞争 情况 ， 但 是 首先 我 们 需要 对 并 发 做 一 个 更 普遍 的 回顾 . 
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5. 2， 并 发 和 它 的 管理 


在 现代 Linux 系统 ， 有 非常 多 的 并 发 源 ， 并 且 因此 而 来 的 可 能 竞争 情况 ， 多 个 用 户 空 间 
进程 在 运行 ， 它 们 可 能 以 令 人 惊讶 的 方式 组 合 存 取 你 的 代码 .SMP 系统 能 够 同时 在 不 同 处 
理 器 上 执行 你 的 代码 ， 内 核 代码 是 可 抢占 的 ;你 的 驱动 代码 可 能 在 任何 时 间 失 去 处 理 器 ， 
代替 它 的 进程 可 能 也 在 你 的 张 动 中 运行 ， 设备 中 断 是 能 够 导致 你 的 代码 并 发 执行 的 异步 事 
件 ， 内 核 也 提供 各 种 延迟 代码 执行 的 机 制 ， 例 如 workqueue，tasklet， 以 及 定时 器 ， 这 
些 能 够 使 你 的 代码 在 任何 时 间 以 一 种 与 当前 进程 在 做 的 事情 无 关 的 方式 运行 ， 在 现代 的 ， 
热 插 拔 的 世界 中 ， 你 的 设备 可 能 在 你 使 用 它们 的 时 候 轻 易 地 消失 . 





























避免 竞争 情况 可 能 是 一 个 令 人 害怕 的 工作 ， 在 一 个 任何 时 候 可 能 发 生 任何 事 的 世界 ， 豫 动 
程序 员 如 何 避 免 产 生 绝对 的 混乱 ? 事实 证 明 ， 大 部 分 竞争 情况 可 以 避免 ， 通 过 一 些 想法 ， 
内 核 并 发 控制 原 语 ， 以 及 几 个 基本 原则 的 应 用 .我 们 会 先 从 原则 开始 ， 接 着 进入 如 何 使 用 
它们 的 细节 中 




















竞争 情况 来 自 对 资源 的 共享 存 取 的 结果 . 当 2 个 执行 的 线路 了 "有 机 会 操作 同一 个 数据 结 
构 (或 者 硬件 资源 )， 混 合 的 可 能 性 就 一 直 存 在 ， 因 此 第 一 个 经 验 法 则 是 在 你 设计 驱动 时 在 
任何 可 能 的 时 候 记 住 避免 共享 的 资源 ， 如 果 没 有 并 发 存 取 ， 就 没有 竞争 情况 .因此 小 心 编 
写 的 内 核 代码 应 当 有 最 小 的 共享 . 这 个 想法 的 最 明显 应 用 是 避免 使 用 全 局 变量 .如 果 你 将 
一 个 资源 放 在 多 个 执行 线路 能 够 找到 它 的 地 方 ， 应 当 有 一 个 很 强 的 理由 这 样 做 . 





















































事实 是 ， 然 而 ， 这 样 的 共享 第 常 是 需要 的 .硬件 资源 是 ， 由 于 它们 的 特性 ， 共 享 的 ， 软 件 
资源 也 必须 常常 共享 给 多 个 线程 也 要 记 住 全 局 变量 远 远 不 是 共享 数据 的 唯一 方式 ; 任何 
时 候 你 的 代码 传递 一 个 指针 给 内 核 的 其 他 部 分 ， 潜 在 地 它 创造 了 一 个 新 的 共享 情形 .共享 
是 生活 的 事实 . 





























这 是 资源 共享 的 硬 规则 : 任何 时 候 一 个 硬件 或 软件 资源 被 超出 一 个 单个 执行 线程 共享 ， 并 
且 可 能 存在 一 个 线程 看 到 那个 资源 的 不 一 致 时 ， 你 必须 明确 地 管理 对 那个 资源 的 存 取 在 
上 面 的 scull 例子 ， 这 个 情况 在 进程 B 看 来 是 不 一 致 的 ; 不 知道 进程 A 已 经 为 ( 共享 
的 ) 设备 分 配 了 内 存 ， 它 做 它 自 己 的 分 配 并 且 履 盖 了 A 的 工作 .在 这 个 例子 里 ， 我 们 必 
须 控 制 对 scull 数据 结构 的 存 取 ， 我 们 需要 安排 ， 这 样 代 码 或 者 看 到 内 存 已 经 分 配 了 ， 

或 者 知道 没有 内 存 已 经 或 者 将 要 被 其 他 人 分 配 ， 存 取 管 理 的 常用 技术 是 加 锁 或 者 互 斥 一 
确保 在 任何 时 间 只 有 一 个 执行 线程 可 以 操作 一 个 共享 资源 ， 本 章 剩 下 的 大 部 分 将 专门 介绍 
加 锁 . 














De 


































































































然而 ， 首 先 ， 我 们 必须 简短 考虑 一 下 另 一 个 重要 规则 ， 当 内 核 代 码 创建 一 个 会 被 内 核 其 他 
部 分 共享 的 对 象 时 ， 这 个 对 象 必须 一 直 存 在 (并 且 功 能 正常 ) 到 它 知 道 没 有 对 它 的 外 部 引用 
存在 为 止 ，scull 使 它 的 设备 可 用 的 瞬间 ， 它 必须 准备 好 处 理 对 那些 设备 的 请 求 ， 并 且 

scull 必须 一 直 能 够 处 理 对 它 的 设备 的 请 求 直到 它 知道 没有 对 这 些 设备 的 引用 (例如 打开 
的 用 户 空间 文件 ) 存 在 ，2 个 要 求 出 自 这 个 规则 : 除非 它 处 于 可 以 正确 工作 的 状态 ， 不 能 
有 对 象 能 对 内 核 可 用 ， 对 这 样 的 对 象 的 引用 必须 被 跟踪 .在 大 部 分 情况 下 ， 你 将 发 现 内 核 
为 你 处 理 引 用 计数 ， 但 是 常常 有 例外 . 



































”本 章 的 意图 ， 一 个 执行 “线程 “是 任何 运行 代码 的 上 下 文 ， 每 个 进程 显然 是 一 个 执行 线 
程 ， 但 是 一 个 中 断 处 理 也 是 ， 或 者 其 他 响应 一 个 异步 内 核 事 件 的 代码 . 
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遵照 上 面 的 规则 需要 计划 和 对 细节 小 心 注意 ， 容 易 被 对 资源 的 并 发 存 取 而 吃惊 ， 你 事先 并 
没有 认识 到 被 共享 ， 通 过 一 些 努 力 ， 然 而 ， 大 部 分 竞争 情况 能 够 在 它们 咬 到 你 或 者 你 的 用 
户 前 被 消灭 . 


5. 3， 旗 标 和 互 斥 体 


让 我 们 看 看 我 们 如 何 给 scull 加 锁 ， 我 们 的 目标 是 使 我 们 对 scull 数据 结构 的 操作 原子 
化 ， 就 是 在 有 其 他 执行 线程 的 情况 下 这 个 操作 一 次 发 生 . 对 于 我 们 的 内 存 泄漏 例子 ， 我 们 
需要 保证 ， 如 果 一 个 线程 发 现 必须 分 配 一 个 特殊 的 内 存 块 ， 它 有 机 会 进行 这 个 分 配 在 其 他 
线程 可 做 测试 之 前 .为 此 ， 我 们 必须 建立 临界 区 : 在 任何 给 定时 间 只 有 一 个 线程 可 以 执行 
的 代码 . 



























































不 是 所 有 的 临界 区 是 同样 的 ， 因 此 内 核 提供 了 不 同 的 原 语 适用 不 同 的 需求 ， 在 这 个 例子 中 ， 
每 个 对 scull 数据 结构 的 存 取 都 发 生 在 由 一 个 直接 用 户 请 求 所 产生 的 进程 上 下 文中 ; 没 

有 从 中 断 处 理 或 者 其 他 异步 上 下 文中 的 存 取 .没有 特别 的 周期 (响应 时 间 ) 要 求 ; 应 用 程序 
程序 员 理 解 L/O 请 求 常常 不 是 马上 就 满足 的 ， 进一步 讲 ，scul1l 没有 持 有 任何 其 他 关键 

系统 资源 ， 在 它 存 取 它 自己 的 数据 结构 时 ， 所 有 这 些 意味 着 如 果 scull 驱动 在 等 待 轮 到 

它 存 取 数据 结构 时 进入 睡眠 ， 没 人 介 音 . 




































































“去 睡眠 ”在 这 个 上 下 文中 是 一 个 明确 定义 的 术语 ， 当 一 个 Linux 进程 到 了 一 个 它 无 法 做 
进一步 处 理 的 地 方 时 ， 它 去 睡眠 (或 者 “阻塞 0 ， 让 出 处 理 器 给 别人 直到 以 后 茶 个 时 间 它 
能 够 再 做 事情 ， 进 程 常常 在 等 待 L/O 完成 时 睡眠 ， 随 着 我 们 深入 内 核 ， 我 们 会 遇 到 很 多 
情况 我 们 不 能 睡眠 .然而 scull 中 的 write 方法 不 是 其 中 一 个 情况 .因此 我 们 可 使 用 一 
个 加 锁 机 制 使 进程 在 等 等 存 取 临界 区 时 睡眠 . 













































































正如 重要 地 ， 我 们 将 进行 一 个 可 能 会 睡眠 的 操作 ( 使 用 kmalloc 分 配 内 存 ) 一 因此 睡 
眠 是 一 个 在 任何 情况 下 的 可 能 性 ， 如 果 我 们 的 临界 区 要 正确 工作 ， 我 们 必须 使 用 一 个 加 锁 
原 语 在 一 个 拥有 锁 的 进程 睡眠 时 起 作用 .不 是 所 有 的 加 锁 机 制 都 能 够 在 可 能 睡眠 的 地 方 使 
用 ( 我 们 在 本 章 后 面 会 看 到 几 个 不 可 以 的 ). 然 而， 对 我 们 现在 的 需要 ， 最 适合 的 机 制 时 
一 个 旗 标 . 
























































旗 标 在 计算 机 科学 中 是 一 个 被 很 好 理解 的 概念 ， 在 它 的 核心 ， 一 个 旗 标 是 一 个 单个 整 型 值 ， 
结合 有 一 对 函数 ， 典 型 地 称 为 和 V， 一 个 想 进 入 临界 区 的 进程 将 在 相关 旗 标 上 调用 了; 
如 果 旗 标的 值 大 于 零 ， 这 个 值 递减 1 并 且 进 程 继续 ， 相反， 如 果 旗 标的 值 是 0 ( 或 更 
小 )， 进 程 必须 等 待 直到 别人 释放 旗 标 .解锁 一 个 旗 标 通过 调用 V 完成 ; 这 个 函数 递增 
旗 标 的 值 ， 并 且 ， 如 果 需 要 ， 唤 醒 等 待 的 进程 . 























当 旗 标 用 作 互 斥 一 阻止 多 个 进程 同时 在 同一 个 临界 区 内 运行 一 它们 的 值 将 初始 化 为 1. 
这 样 的 旗 标 在 任何 给 定时 间 只 能 由 一 个 单个 进程 或 者 线程 持 有 .以 这 种 模式 使 用 的 旗 标 有 
时 称 为 一 个 互 斥 锁 ， 就 是 ， 当 然 ,“ 互 斥 的 缩写 ， 几 乎 所 有 在 Linux 内 核 中 发 现 的 旗 标 
都 是 用 作 互 斥 . 




















5.3.1. Linux 旗 标 实现 





Linux 内 核 提 供 了 一 个 遵守 上 面 语义 的 旗 标 实现 ， 尽 管 术 语 有 些 不 同 . 为 使 用 旗 标 ， 内 核 
代码 必须 包含 “asm/semaphore. h>， 相 关 的 类 型 是 struct semaphore; 实际 旗 标 可 以 用 
几 种 方法 来 声明 和 初始 化 ， 一 种 是 直接 创建 一 个 旗 标 ， 接 着 使 用 sema init 来 设 定 它 : 
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void sema init(struct semaphore *sem, int val); 


这 里 val 是 安排 给 旗 标 的 初始 值 . 














然而 ， 通 第 旗 标 以 互 斥 锁 的 模式 使 用 ， 为 使 这 个 通用 的 例子 更 容易 些 ， 内 核 提 供 了 一 套 帮 
助 函 数 和 宏 定 义 ， 因 此 ， 一 个 互 斥 锁 可 以 声明 和 初始 化 ， 使 用 下 面 的 一 种 : 





DECLARE MUTEX (name) ; 
DECLARE MUTEX LOCKED (name) ; 








这 里 ， 结 果 是 一 个 旗 标 变量 ( 称 为 name )， 初 始 化 为 1 C 使 用 DECLARE MUTEX ) 或 者 
0 (使 用 DECLARE MUTEX LOCKED ). 在 后 一 种 情况 ， 互 斥 锁 开 始 于 上 锁 的 状态 ; 在 允许 任 
何 线程 存 取 之 前 将 不 得 不 显 式 解锁 它 . 














如 果 互 斥 锁 必 须 在 运行 时 间 初 始 化 ( 这 是 如 果 动 态 分 配 它 的 情况 ， 举 例 来 说 )， 使 用 下 列 
中 的 一 个 : 


void init MUTEX(struct semaphore *sem); 
void init MUTEX LOCKED (struct semaphore *sem); 


在 Linux 世界 中 ，P 函数 称 为 down 一 或 者 这 个 名 子 的 某 个 变 体 这里, "down" TRI 
是 这 样 的 事实 ， 这 个 函数 递减 旗 标 的 值 ， 并 且 ， 也 许 在 使 调用 者 睡眠 一 会 儿 来 等 竺 旗 标 变 
可 用 之 后 ， 给 予 对 被 保护 资源 的 存 取 . 有 3 个 版 本 的 down: 











void down(struct semaphore *sem); 
int down interruptible(struct semaphore *sem); 
int down trylock(struct semaphore *sem) ; 





down 递减 旗 标 值 并 且 等 待 需 要 的 时 间 . down interruptible 同样 ， 但 是 操作 是 可 中 断 的 . 
这 个 可 中 断 的 版 本 几乎 一 直 是 你 要 的 那个 ， 它 允许 一 个 在 等 待 一 个 弃 标 的 用 户 空 间 进程 被 
用 户 中 断 ， 作 为 一 个 通用 的 规则 ， 你 不 想 使 用 不 可 中 断 的 操作 ， 除 非 实在 是 没有 选择 .不 
可 中 断 操作 是 一 个 创建 不 可 杀 死 的 进程 ( 在 ps 中 见 到 的 可 怕 的 ID 状态 ”) 和 惹恼 你 的 
用 户 的 好 方法 ， 使 用 down interruptible 需要 一 些 格外 的 小 心 ， 但 是 ， 如 果 操 作 是 可 中 
断 的 ， 函 数 返 回 一 个 非 零 值 ， 并 且 调 用 者 不 持 有 族 标 .正确 的 使 用 down interruptible 
需要 一 直 检 查 返回 值 并 且 针 对 性 地 响应 . 


















































最 后 的 版 本 〈 down trylock ) 从 不 睡眠 ; 如 果 弃 标 在 调用 时 不 可 用 ，down_trylock 3 
刻 返 回 一 个 非 零 值 . 





一 旦 一 个 线程 已 经 成 功 调用 down 各 个 版 本 中 的 一 个 ， 就 说 它 持 有 着 旗 标 (或 者 已 经 ”取得 
“或 者 ”获得 ” 旗 标 )， 这 个 线程 现在 有 权力 存 取 这 个 旗 标 保护 的 临界 区 ， 当 这 个 需要 互 斥 的 
操作 完成 时 ， 旗 标 必须 被 返回 .V 的 Linux 对 应 物 是 up: 





void up(struct semaphore *sem); 


一 旦 up 被 调用 ， 调 用 者 就 不 再 拥有 旗 标 . 
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如 你 所 愿 ， 要 求 获取 一 个 旗 标 的 任何 线程 ， 使 用 一 个 ( 且 只 能 一 个 ) 对 up 的 调用 释放 它 . 
在 错误 路 径 中 常常 需要 特别 的 小 心 ; 如 果 在 持 有 一 个 旗 标 时 遇 到 一 个 错误 ， 旗 标 必 须 在 返 
回 错误 状态 给 调用 者 之 前 释放 旗 标 .没有 释放 旗 标 是 容易 犯 的 一 个 错误 ;这 个 结果 ( 进程 
挂 在 看 来 无 关 的 地 方 ) 可 能 是 难于 重 现 和 跟踪 的 . 


5.3.2. 在 scull 中 使 用 旗 标 


旗 标 机 制 给 予 scull 一 个 工具 ， 可 以 在 存 取 scull_dev 数据 结构 时 用 来 避免 竞争 情况 . 
但 是 正确 使 用 这 个 工具 是 我 们 的 责任 .正确 使 用 加 锁 原 语 的 关键 是 严密 地 指定 要 保护 哪个 
资源 并 且 确 认 每 个 对 这 些 资源 的 存 取 都 使 用 了 正确 的 加 锁 方法 ， 在 我 们 的 例子 驱动 中 ， 感 
兴趣 的 所 有 东西 都 包含 在 scull dev 结构 里 面 ， 因 此 它 是 我 们 的 加 锁 体制 的 逻辑 范围 . 

















































































































让 我 们 在 看 看 这 个 结构 : 


struct scull dev { 
struct scull qset *data; /* Pointer to first quantum set */ 
int quantum; /* the current quantum size */ 
int qset; /* the current array size */ 
unsigned long size; /* amount of data stored here */ 
unsigned int access key; /* used by sculluid and scullpriv */ 
struct semaphore sem; /* mutual exclusion semaphore */ 
struct cdev cdev; /* Char device structure */ 


hi 


到 结构 的 底部 是 一 个 称 为 sem 的 成 员 ， 当 然 ， 它 是 我 们 的 旗 标 ， 我 们 已 经 选择 为 每 个 虚 
拟 scull 设备 使 用 单独 的 旗 标 ， 使 用 一 个 单个 的 全 局 的 旗 标 也 可 能 会 是 同样 正确 ， 通 常 
各 种 scull 设备 不 共享 资源 ， 然 而 ， 并 且 没 有 理由 使 一 个 进程 等 待 ， 而 另 一 个 进程 在 使 
用 不 同 scull 设备 .不同 设备 使 用 单独 的 旗 标 允许 并 行进 行 对 不 同 设备 的 操作 ， 因 此 ， 
提高 了 性 能 . 















































旗 标 在 使 用 前 必须 初始 化 . scull 在 加 载 时 进行 这 个 初始 化 ， 在 这 个 循环 中 : 


for (i = 0; i < scull nr devs; i++) { 
scull devices[i].quantum = scull quantum; 
scull devices[i].qset = scull qset; 
init MUTEX(&scull devices[i]. sem); 
scull setup cdev(&scull devicesli], i); 


j 


注意 ， 旗 标 必须 在 scull 设备 对 系统 其 他 部 分 可 用 前 初始 化 . Wy, init MUTEX XE 
scull setup cdev 前 被 调用 . 以 相反 的 次 序 进 行 这 个 操作 可 能 产生 一 个 竞争 情况 ， 旗 标 
可 能 在 它 准 备 好 之 前 被 存 取 . 














下 一 步 ， 我 们 必须 浏览 代码 ， 并 且 确 认 在 没有 持 有 旋 标 时 没有 对 scull_dev 数据 结构 的 
存 取 .， 因 此 ， 例 如 ，scull write 以 这 个 代码 开始 : 








if (down interruptible (&dev->sem)) 
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return -ERESTARTSYS; 


注意 对 down interruptible 返回 值 的 检查 ; 如 果 它 返回 非 零 ， 操 作 被 打 断 了 ， 在 这 个 情 
况 下 通常 要 做 的 是 返回 -ERESTARTSYS， 看 到 这 个 返回 值 后 ， 内 核 的 高 层 要 么 从 头 重 局 这 
个 调用 要 么 返回 这 个 错误 给 用 户 . 如 果 你 返回 -ERESTARTSYS， 你 必须 首先 恢复 任何 用 户 
可 见 的 已 经 做 了 的 改变 ， 以 保证 当 重 试 系统 调用 时 正确 的 事情 发 生 ， 如 果 你 不 能 以 这 个 方 
式 恢 复 ， 你 应 当 蔡 之 返回 -EINTR. 












































scull write 必须 释放 旗 标 ， 不 管 它 是 否 能 够 成 功 进行 它 的 其 他 任务 ， 如 果 事 事 都 顺利 ， 
执行 落 到 这 个 函数 的 最 后 几 行 : 








out: 
up (&dev-^sem) ; 
return retval; 





这 个 代码 释放 旗 标 并 且 返 回 任何 需要 的 状态 . 在 scull write 中 有 儿 个 地 方 可 能 会 出 错 ; 
这 些 地 方 包括 内 存 分 配 失 败 或 者 在 试图 从 用 户 空间 拷贝 数据 时 出 错 ， 在 这 些 情况 中 ， 代 人 码 
进行 了 一 个 goto out， 以 确保 进行 正确 的 清理 . 


5. 3. 3， 读 者 / 写 者 旗 标 


旗 标 为 所 有 调用 者 进行 互 斥 ， 不 管 每 个 线程 可 能 想 做 什么 ， 然 而 ， 很 多 任务 分 为 2 种 清 
楚 的 类 型 : 只 需要 读 取 被 保护 的 数据 结构 的 类 型 ， 和 必须 做 改变 的 类 型 ， 允 许多 个 并 发 读 
者 常常 是 可 能 的 ， 只 要 没有 人 试图 做 任何 改变 . 这样 做 能 够 显著 提高 性 能 ; 只 读 的 任务 可 
以 并 行进 行 它们 的 工作 而 不 必 等 待 其 他 读者 退出 临界 区 ， 
































Linux 内 核 为 这 种 情况 提供 一 个 特殊 的 旗 标 类 型 称 为 rwsem (或 者 ”reader/writer 
semaphore”). rwsem 在 驱动 中 的 使 用 相对 较 少 ， 但 是 有 时 它们 有 用 . 








使 用 rwsem 的 代码 必须 包含 <linux/rwsem. h>， 读 者 写 者 旗 标 的 相关 数据 类 型 是 
struct rw semaphore; 一 个 rwsem 必须 在 运行 时 显 式 初始 化 : 


void init rwsem(struct rw semaphore *sem); 








一 个 新 初始 化 的 rwsem 对 出 现 的 下 一 个 任务 ( 读者 或 者 写 者 ) 是 可 用 的 ， 对 需要 只 读 存 
取 的 代码 的 接口 是 : 





void down read(struct rw semaphore *sem); 
int down read trylock(struct rw semaphore *sem); 
void up read(struct rw semaphore *sem); 








对 down read 的 调用 提供 了 对 被 保护 资源 的 只 读 存 取 ， 与 其 他 读者 可 能 地 并 发 地 存 取 . 
注意 down read 可 能 将 调用 进程 置 为 不 可 中 断 的 睡眠 ，down_read_trylock 如 果 读 存 取 
是 不 可 用 时 不 会 等 待 ; 如 果 被 准予 存 取 它 返回 非 零 ， 否 则 是 O0. 注意 down read trylock 
的 惯例 不 同 于 大 部 分 的 内 核 函 数 ， 返 回 值 0 指示 成 功 ， 一 个 使 用 down read 获取 的 
rwsem 必须 最 终 使 用 up read 释放 . 
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读者 的 接口 类 似 : 


void down write(struct rw semaphore *sem); 

int down write trylock(struct rw semaphore *sem); 
void up write(struct rw semaphore *sem); 

void downgrade write(struct rw semaphore *sem); 


down write, down write trylock, 4l up write 全 部 就 像 它们 的 读者 对 应 部 分 ， 除 了 ， 
当然 ， 它 们 提供 写 存 取 .如 果 你 处 于 这 样 的 情况 ， 需 要 一 个 写 者 锁 来 做 一 个 快速 改变 ， 接 
着 一 个 长 时 间 的 只 读 存 取 ， 你 可 以 使 用 downgrade_write 在 一 旦 你 已 完成 改变 后 允许 其 
他 读者 进入 . 














一 个 rwsem 人 允许 一 个 读者 或 者 不 限 数目 的 读者 来 持 有 族 标 ， 写 者 有 优先 权 ; 当 一 个 写 者 
试图 进入 临界 区 ， 就 不 会 允许 读者 进入 直到 所 有 的 写 者 完成 了 它们 的 工作 .这 个 实现 可 能 
导致 读者 饥饿 一 读者 被 长 时 间 拒 绝 存 取 一 如 果 你 有 大 量 的 写 者 来 莞 争 旗 标 .由 于 这 个 
原因 ，rwsem 最 好 用 在 很 少 请 求 写 的 时 候 ， 并 且 写 者 只 占用 短 时 间 . 


5.4. Completions 机 人 制 


内 核 编 程 的 一 个 普通 模式 包括 在 当前 线程 之 外 初始 化 某 个 动作 ， 接 着 等 待 这 个 动作 结束 . 
这 个 动作 可 能 是 创建 一 个 新 内 核 线程 或 者 用 户 空间 进程 ， 对 一 个 存在 着 的 进程 的 请 求 ， 或 
者 一 些 基于 便 件 的 动作 .在 这 些 情况 中 ， 很 有 诱惑 去 使 用 一 个 旗 标 来 同步 2 个 任务 ， 使 
用 这 样 的 代码 : 






































struct semaphore sem; 

init MUTEX LOCKED (&sem) ; 
start external task (&sem); 
down (&sem) ; 


外 部 任务 可 以 接着 调用 up (??sem) ， 在 它 的 工作 完成 时 . 











事实 证 明 ， 这 种 情况 旗 标 不 是 最 好 的 工具 ， 正 常 使 用 中 ， 试 图 加 锁 一 个 旗 标 的 代码 发 现 旗 
标 几 乎 在 所 有 时 间 都 可 用 ; 如 果 对 旗 标 有 很 多 竞争 ， 性 能 会 受 损 并 且 加 锁 方案 需要 重新 审 
视 ， 因 此 旗 标 已 经 对 “可 用 “情况 做 了 很 多 的 优化 ， 当 用 上 面 展 示 的 方法 来 通知 任务 完成 ， 
然而 ， 调 用 down 的 线程 将 几乎 是 一 直 不 得 不 等 待 ; 因此 性 能 将 受 损 ， 旗 标 还 可 能 易于 处 
于 一 个 ( 困难 的 ) 竞争 情况 ， 如 果 它 们 表明 为 自动 变量 以 这 种 方式 使 用 时 ， 在 一 些 情况 
中 ， 旗 标 可 能 在 调用 up 的 进程 用 完 它 之 前 消失 . 









































这 些 问题 引起 了 在 2.4.7 内 核 中 增加 了 “completion” 接 口 ，completion 是 任务 使 用 的 
一 个 轻 量 级 机 制 : 允许 一 个 线程 告诉 另 一 个 线程 工作 已 经 完成 ， 为 使 用 completion， 你 
的 代码 必须 包含 <linux/completion.h>》， 一 个 completion 可 被 创建 ， 使 用 : 














DECLARE COMPLETION (my completion); 





或 者 ， 如 果 completion 必须 动态 创建 和 初始 化 : 
struct completion my completion; /* ... */ 
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init completion(&my completion); 


等 待 completion 是 一 个 简单 事 来 调用 : 
void wait for completion(struct completion *c); 


注意 这 个 函数 进行 一 个 不 可 打 断 的 等 待 ， 如 果 你 的 代码 调用 wait for completion J£ H. 
没有 人 完成 这 个 任务 ， 结 果 会 是 一 个 不 可 杀 死 的 进程. ^ 





男 一 方面 ， 真正 的 completion 事件 可 能 通过 调用 下 列 之 一 来 发 出 : 


void complete(struct completion **c); 
void complete all(struct completion *c); 





如 果 多 于 一 个 线程 在 等 待 同一 个 completion 事件 ， 这 2 个 函数 做 法 不 同 ，complete 只 
唤醒 一 个 等 待 的 线程 ， 而 complete all 允许 它们 所 有 都 继续 ， 在 大 部 分 情况 下 ， 只 有 一 
个 等 竺 者， 这 2 个 函数 将 产生 一 致 的 结果 . 




















一 个 completion 正常 地 是 一 个 单 发 设备 ， 使 用 一 次 就 放弃 . 然而 ， 如 果 采 取 正 确 的 措施 
重新 使 用 completion 结构 是 可 能 的 .如 果 没 有 使 用 complete_all， 重 新 使 用 一 个 
completion 结构 没有 任何 问题 ， 只 要 对 于 发 出 什么 事件 没有 模糊 .如 果 你 使 用 
complete_all， 然 而 ， 你 必须 在 重新 使 用 前 重新 初始 化 completion 结构 ， 宏 定义 : 
































INIT COMPLETION(struct completion c); 
可 用 来 快速 进行 这 个 初始 化 . 
作为 如 何 使 用 completion 的 一 个 例子 ， 考 虑 complete 模块 ， 它 包含 在 例子 源码 里 ， 这 


个 模块 使 用 简单 的 语义 定义 一 个 设备 : 任何 试图 从 一 个 设备 读 的 进程 将 等 待 ( 使 用 
wait for completion) 直到 其 他 进程 向 这 个 设备 写 ， 实 现 这 个 行为 的 代码 是 : 








DECLARE COMPLETION (comp) ; 
ssize t complete read (struct file *filp, char _ user *buf, size t count, 
loff t *pos) 
{ 
printk (KERN DEBUG "process %i (%s) going to sleep\n”, current->pid, 
current-?comm); 
wait for completion (&comp); 
printk(KERN DEBUG "awoken %i (%s)\n”, current-?pid, current-?comm); 
return 0; /* EOF */ 
j 


ssize t complete write (struct file *filp, const char user *buf, size t 
count, loff t *pos) 


{ 


18 [18] 








在 本 书 编写 时 ， 添 加 可 中 断 版 本 的 补丁 已 经 流行 但 是 还 没有 合并 到 主线 中 . 


94 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu,Fedora,SUSEL] O O O 0O IO 0O O Linux[] HD] E] UE [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
printk(KERN DEBUG "process *i (%s) awakening the readers... n^, current- 
>pid, current-^comm); 
complete (&comp) ; 
return count; /* succeed, to avoid retrial */ 


j 

















有 多 个 进程 同时 从 这 个 设备 “ 读 “ 是 有 可 能 的 .每 个 对 设备 的 写 将 确切 地 使 一 个 读 操 作 完 成 ， 
但 是 没有 办 法 知道 会 是 哪个 . 

















completion 机 制 的 典型 使 用 是 在 模块 退出 时 与 内 核 线程 的 终止 一 起 ， 在 这 个 原型 例子 里 ， 
一 些 驱动 的 内 部 工作 是 通过 一 个 内 核 线程 在 一 个 while) 循环 中 进行 的 ， 当 模块 准备 好 
被 清理 时 ，exit 函数 告知 线程 退出 并 且 等 待 结束 ， 为 此 目的 ， 内 核 包含 一 个 特殊 的 函数 
给 线程 使 用 : 




















void complete and exit(struct completion *c, long retval); 


5.5. 自 旋 锁 


对 于 互 斥 ， 旗 标 是 一 个 有 用 的 工具 ， 但 是 它们 不 是 内 核 提 供 的 唯一 这 样 的 工具 ， 相 反 ， 大 
部 分 加 锁 是 由 一 种 称 为 自 旋 锁 的 机 制 来 实现 .不 象 旗 标 ， 自 旋 锁 可 用 在 不 能 睡眠 的 代码 中 ， 
例如 中 断 处 理 ， 当 正确 地 使 用 了 ， 通 常 自 旋 锁 提供 了 比 旗 标 更 高 的 性 能 . 然而， 它们 确实 
带 来 对 它们 用 法 的 一 套 不 同 的 限制 . 



























































自 旋 锁 概念 上 简单 ， 一 个 目 旋 锁 是 一 个 互 斥 设备 ， 只 能 有 2 个 值 :“ 上 锁 %“ 和 ”解锁 % 它 常 
常 实现 为 一 个 整数 值 中 的 一 个 单个 位 ， 想 获取 一 个 特殊 锁 的 代码 测试 相关 的 位 ， 如 果 锁 是 
可 用 的 ， 这 个 “上 锁 “ 位 被 置 位 并 且 代码 继续 进入 临界 区 ， 相 反 ， 如 果 这 个 锁 已 经 被 别人 获 
得 ， 代 码 进 入 一 个 紧凑 的 循环 中 反复 检查 这 个 锁 ， 直 到 它 变 为 可 用 . 这 个 循环 就 是 自 旋 锁 
It^ Ee EAT. 

















当然 ， 一 个 自 旋 锁 的 真实 实现 比 上 面 描述 的 复杂 一 点 ， 这 个 测试 并 置 位 ”操作 必须 以 原子 
方式 进行 ， 以 便 只 有 一 个 线程 能 够 获得 锁 ， 就 算 如 果 有 多 个 进程 在 任何 给 定时 间 目 旋 ， 必 
须 小 心 以 避免 在 超 线程 处 理 器 上 死 锁 一 实现 多 个 虚拟 CPU 以 共享 一 个 单个 处 理 器 核心 
和 缓存 的 芯片 ， 因此 实际 的 自 旋 锁 实现 在 每 个 Linux 文 持 的 体系 上 都 不 同 ， 核 心 的 概念 
在 所 有 系统 上 相同 ， 然 而 ， 当 有 对 自 旋 锁 的 竞争 ， 等 待 的 处 理 器 在 一 个 紧凑 循环 中 执行 并 
且 不 作 有 用 的 工作 . 






























































它们 的 特性 上 ， 自 旋 锁 是 打算 用 在 多 处 理 器 系统 上 ， 尽 管 一 个 运行 一 个 抢占 式 内 核 的 单 处 
理 器 工作 站 的 行为 如 同 SMP， 如 果 只 考虑 到 并 发 ， 如 果 一 个 非 抢占 的 单 处理 器 系统 进入 一 
个 锁 上 的 自 旋 ， 它 将 永远 自 旋 ; 没有 其 他 的 线程 再 能 够 获得 CPU 来 释放 这 个 锁 ， 因 此 ， 

目 旋 锁 在 没有 打开 抢占 的 单 处 理 器 系统 上 的 操作 被 优化 为 什么 不 作 ， 除 了 改变 IRQ 屏蔽 
状态 的 那些 ， 由 于 抢占 ， 甚 至 如 果 你 从 不 希望 你 的 代码 在 一 个 SMP 系统 上 运行 ， 你 仍然 
需要 实现 正确 的 加 锁 . 


5. 5. 1， 自 旋 锁 API 简介 
















































































自 旋 锁 原 语 要 求 的 包含 文件 是 《linux/spinlock. h>， 一 个 实际 的 锁 有 类 型 spinlock t. 
象 任何 其 他 数据 结构 ， 一 个 自 旋 锁 必 须 初始 化 ， 这 个 初始 化 可 以 在 编译 时 完成 ， 如 下 : 
95 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu,Fedora,SUSE[| [] UUUITOUULinnx]UUUUO 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
spinlock t my lock - SPIN LOCK UNLOCKED; 





或 者 在 运行 时 使 用 : 


void spin lock init(spinlock t *lock); 





在 进入 一 个 临界 区 前 ， 你 的 代码 必须 获得 需要 的 lock , H: 
void spin lock(spinlock t *lock); 


注意 所 有 的 自 旋 锁 等 竺 是， 由 于 它们 的 特性 ， 不 可 中 断 的 ， 一旦 你 调用 spin_lock， 你 将 
自 旋 直到 锁 变 为 可 用 . 





为 释放 一 个 你 已 获得 的 锁 ， 传 递 它 给 : 





void spin unlock(spinlock t *lock); 





有 很 多 其 他 的 自 旋 锁 函 数 ， 我 们 将 很 快 都 看 到 ， 但 是 没有 一 个 背离 上 面 列 出 的 函数 所 展示 
的 核心 概念 ， 除了 加 锁 和 释放 ， 没 有 什么 可 对 一 个 锁 所 作 的 ， 但是， 有 几 个 规则 关于 你 必 
须 如 何 使 用 自 旋 锁 ， 我 们 将 用 一 点 时 间 来 看 这 些 ， 在 进入 完整 的 自 旋 锁 接 口 之 前 . 


5. 5. 2， 自 旋 锁 和 原子 上 下 文 


想象 一 会 儿 你 的 驱动 请 求 一 个 自 旋 锁 并 且 在 它 的 临界 区 里 做 它 的 事情 ， 在 中 间 某 处 ， 你 的 
驱动 失去 了 处 理 器 .或 许 它 已 调用 了 一 个 函数 ( copy_from_user， 假 设 ) 使 进程 进入 睡眠 . 
或 者 ， 也 许 ， 内 核 抢占 发 威 ， 一 个 更 高 优先 级 的 进程 将 你 的 代码 推 到 一 边 ， 你 的 代码 现在 
持 有 一 个 锁 ， 在 可 见 的 将 来 的 如 何 时 间 不 会 释放 这 个 锁 ， 如 果 某 个 别 的 线程 想 获得 同一 个 
锁 ， 它 会 ， 在 最 好 的 情况 下 ， 等 待 ( 在 处 理 器 中 自 旋 ) 很 长 时 间 . 最 坏 的 情况 ， 系 统 可 能 
完全 死 锁 . 









































大 部 分 读者 会 同意 这 个 场景 最 好 是 避免 . 因此 ， 应 用 到 自 旋 锁 的 核心 规则 是 任何 代码 必须 ， 
在 持 有 上 自 旋 锁 时 ， 是 原子 性 的 ， 它 不 能 睡眠 ; 事实 上 ， 它 不 能 因为 任何 原因 放弃 处 理 器 ， 
除了 服务 中 断 ( 并 且 有 时 即便 此 时 也 不 行 ) 
































内 核 抢占 的 情况 由 目 旋 锁 代码 目 己 处 理 ， 内核 代 码 持 有 一 个 自 旋 锁 的 任何 时 间 ， 抢 占 在 相 
关 处 理 器 上 被 禁止 ， 即 便 单 处 理 器 系统 必须 以 这 种 方式 禁止 抢占 以 避免 竞争 情况 .这 就 是 
为 什么 需要 正确 的 加 锁 ， 即 便 你 从 不 期 望 你 的 代码 在 多 处 理 器 机 器 上 运行 . 










































































在 持 有 一 个 锁 时 避免 睡眠 是 更 加 困难 ; 很 多 内 核 函 数 可 能 睡眠 ， 并 且 这 个 行为 不 是 都 被 明 
上 记录 了 .， 找 贝 数据 到 或 从 用 户 空间 是 一 个 明显 的 例子 : 请 求 的 用 户 空间 页 可 能 需要 在 找 
贝 进行 前 从 磁盘 上 换 入 ， 这 个 操作 显然 需要 一 个 睡眠 ， 必 须 分 配 内 存 的 任何 操作 都 可 能 
HX. kmalloc 能 够 决定 放弃 处 理 器 ， 并 且 等 待 更 多 内 存 可 用 除非 它 被 明确 告知 不 这 样 做 . 
睡眠 可 能 发 生 在 令 人 恢 诈 的 地 方 ; 编写 会 在 自 旋 锁 下 执行 的 代码 需要 注意 你 调用 的 每 个 函 
A. 


这 有 另 一 个 场景 : 你 的 驱动 在 执行 并 且 已 经 获取 了 一 个 锁 来 控制 对 它 的 设备 的 存 取 . 当 持 
有 这 个 锁 时 ， 设 备 发 出 一 个 中 断 ， 使 得 你 的 中 断 处理 运 行 ， 中断 处 理 ， 在 存 取 设 备 之 前 ， 
必须 获得 锁 ， 在 一 个 中 断 处 理 中 获取 一 个 自 旋 锁 是 一 个 要 做 的 合法 的 事情 ; 这 是 目 旋 锁 操 
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作 不 能 睡眠 的 其 中 一 个 理由 ， 但 是 如 果 中 断 处 理 和 起 初 获得 锁 的 代码 在 同一 个 处 理 器 上 会 
发 生 什么 ?当中 断 处 理 在 自 旋 ， 非 中 断代 码 不 能 运行 来 释放 锁 . 这 个 处 理 器 将 永远 自 旋 . 












































避免 这 个 陷阱 需要 在 持 有 上 自 旋 锁 时 禁止 中 断 〈 只 在 本 地 CPU )， 有 各 种 目 旋 锁 函 数 会 为 你 
禁止 中 断 ( 我 们 将 在 下 一 节 见 到 它们 ). 但是， 一 个 完整 的 中 断 讨论 必须 等 到 第 10 SET. 














关于 目 旋 锁 使 用 的 最 后 一 个 重要 规则 是 自 旋 锁 必须 一 直 是 尽 可 能 短 时 间 的 持 有 .你 持 有 一 
个 锁 越 长 ， 另 一 个 进程 可 能 不 得 不 自 旋 等 待 你 释放 它 的 时 间 越 长 ， 它 不 得 不 完全 自 旋 的 机 
会 越 大 ， 长 时 间 持 有 锁 也 阻止 了 当前 处 理 器 调度 ， 意 味 着 高 优先 级 进程 — 真正 应 当 能 获 
得 CPU 的 一 可 能 不 得 不 等 待 ， 内核 开 发 者 尽 了 很 大 努力 来 减少 内 核反应 时 间 ( 一 个 进 
程 可 能 不 得 不 等 待 调度 的 时 间 ) 在 2.5 开发 系列 ， 一 个 写 的 很 差 的 驱动 会 摧毁 所 有 的 进 
程 ， 仅 仅 通过 持 有 一 个 锁 太 长 时 间 ， 为 避免 产生 这 类 问题 ， 重 视 使 你 的 锁 持 有 时 间 短 . 


5.5.3. 自 旋 锁 函数 
我 们 已 经 看 到 2 个 函数 ，spin lock 和 spin unlock， 可 以 操作 自 旋 锁 ， 有 其 他 几 个 函 


数 ， 然 而 ， 有 类 似 的 名 子 和 用 途 . 我 们 现在 会 展示 全 套 . 这 个 讨论 将 带 我 们 到 一 个 我 们 无 
法 在 几 章 内 适当 涵盖 的 地 方 ; 自 旋 锁 API 的 完整 理解 需要 对 中 断 处 理 和 相关 概念 的 理解 . 





















































实际 上 有 4 个 函数 可 以 加 锁 一 个 自 旋 锁 : 


void spin lock(spinlock t *lock); 

void spin lock irqsave(spinlock t *lock, unsigned long flags); 
void spin lock irq(spinlock t *lock); 

void spin lock bh(spinlock t *lock) 





我 们 已 经 看 到 自 旋 锁 如 何 工 作 .， spin loc irgsave 禁止 中 断 ( 只 在 本 地 处 理 器 ) 在 获得 自 
旋 锁 之 前 ; 之 前 的 中 断 状 态 保 存在 flags 里 .如果 你 绝对 确定 在 你 的 处 理 器 上 没有 禁止 
中 断 的 (或 者 ， 换 句 话 说 ， 你 确信 你 应 当 在 你 释放 你 的 自 旋 锁 时 打开 中 断 )， 你 可 以 使 用 
spin lock irq 代替 ， 并 且 不 必 保持 跟踪 flags， 最 后 ，spin_lock_ph 在 获取 锁 之 前 禁 
止 软件 中 断 ， 但 是 硬件 中 断 留 作 打 开 的 . 























如 果 你 有 一 个 可 能 被 在 (硬件 或 软件 ) 中 断 上 下 文 运行 的 代码 获得 的 自 旋 锁 ， 你 必须 使 用 一 
种 spin lock 形式 来 禁止 中 断 ， 其 他 做 法 可 能 死 锁 系统 ， 迟 早 ， 如 果 你 不 在 硬件 中 断 处 
理 里 存 取 你 的 锁 ， 但 是 你 通过 软件 中 断 〈 例 如 ， 在 一 个 tasklet 运行 的 代码 ， 在 第 7 章 
涉及 的 主题 )， 你 可 以 使 用 spin lock bh 来 安全 地 避免 死 锁 ， 而 仍然 允许 硬件 中 断 被 服 
务 . 














也 有 4 个 方法 来 释放 一 个 自 旋 锁 ; 你 用 的 那个 必须 对 应 你 用 来 获取 锁 的 函数 . 





void spin unlock(spinlock t *lock); 

void spin unlock irqrestore(spinlock t *lock, unsigned long flags); 
void spin unlock irq(spinlock t *lock); 

void spin unlock bh(spinlock t *lock); 


每 个 spin unlock 变 体 恢复 由 对 应 的 spin lock 函数 锁 做 的 工作 .传递 给 
spin unlock irqrestore 的 flags 参数 必须 是 传递 给 spin lock_irqsave 的 同一 个 变 
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.你 必须 也 调用 spin lock irqsave 和 spin unlock irqrestore 在 同一 个 函数 里 . 
则 ， 你 的 代码 可 能 破坏 某 些 体系 . 





rbi 地 





还 有 一 套 非 阻 赛 的 日 旋 锁 操作 : 


int spin trylock(spinlock t *lock); 
int spin trylock bh(spinlock t *lock); 


这 些 函 数 成 功 时 返回 非 零 ( 获得 了 锁 )， 否 则 0. EG" try" IRERE K. 

5. 5. 4， 读 者 / 写 者 上 自 旋 锁 

内 核 提 供 了 一 个 自 旋 锁 的 读者 / 写 者 形式 ， 直 接 模 仿 我 们 在 本 章 前 面 见 到 的 读者 / 写 者 旗 标 . 
这 些 锁 允许 任何 数目 的 读者 同时 进入 临界 区 ， 但 是 写 者 必须 是 排他 的 存 取 ， 读 者 写 者 锁 有 


一 个 类 型 rwlock t， 在 《linux/spinlokc.h> 中 定义 .它们 可 以 以 2 种 方式 被 声明 和 被 
初始 化 : 











rwlock t my rwlock = RW LOCK UNLOCKED; /* Static way */ 
rwlock t my rwlock; 
rwlock init(&my rwlock); /* Dynamic way */ 





可 用 函数 的 列表 现在 应 当 看 来 相当 类 似 ， 对 于 读者 ， 下 列 函 数 是 可 用 的 : 


void read lock(rwlock t *lock); 

void read lock irqsave(rwlock t *lock, unsigned long flags); 
void read lock irq(rwlock t *lock); 

void read lock bh(rwlock t *lock); 


void read unlock(rwlock t *lock); 

void read unlock irqrestore(rwlock t *lock, unsigned long flags); 
void read unlock irq(rwlock t *lock); 

void read unlock bh(rwlock t *lock); 





有 趣 地 ， 没 有 read trylock. 对 于 写 存 取 的 函数 是 类 似 的 : 


void write lock(rwlock t *lock); 

void write lock irqsave(rwlock t *lock, unsigned long flags); 
void write lock irq(rwlock t *lock); 

void write lock bh(rwlock t *lock); 

int write trylock(rwlock t *lock); 


void write unlock(rwlock t *lock); 
void write unlock irqrestore(rwlock t *lock, unsigned long flags); 


void write unlock irq(rwlock t *lock); 
void write unlock bh(rwlock t *lock); 
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人 
读者 / 写 者 锁 能 够 狐 坏 读者 ， 就 像 rwsem 一 样 . 这 个 行为 很 少 是 一 个 问题 ; 然而 ， 如 果 有 
足够 的 锁 竞 争 来 引起 饥饿 ， 性 能 无 论 如 何 都 不 行 . 


5. 6， 锁 陷阱 


多 年 使 用 锁 的 经 验 -- 早 于 Linux 的 经 验 — 已经 表明 加 锁 可 能 是 非常 难于 正确 的 ， 管 
理 并 发 是 一 个 固有 的 技巧 性 的 事情 ， 有 很 多 出 错 的 方式 ， 在 这 一 节 ， 我 们 快速 看 一 下 可 能 
出 错 的 东西 . 


5. 6. 1 模糊 的 规则 
如 同上 面 已 经 说 过 的 ， 一 个 正确 的 加 锁 机 制 需 要 清晰 和 明确 的 规则 .， 当 你 创建 一 个 可 以 被 


并 发 存 取 的 资源 时 ， 你 应 当 定 义 哪个 锁 将 控制 存 取 .加 锁 应 当真 正在 开始 处 进行 ， 事 后 更 
会 是 难 的 事情 .开始 时 花费 的 时 间 常 常 在 调试 时 获得 回报 . 
















































































当 你 编写 你 的 代码 ， 你 会 之 无 疑问 遇 到 几 个 函数 需要 存 取 通 过 一 个 特定 锁 保护 的 结构 ， 在 
此 ， 你 必须 小 心 : 如 果 一 个 函数 需要 一 个 锁 并 且 接 着 调用 为 一 个 函数 也 试图 请 求 这 个 锁 ， 
你 的 代码 死 锁 .不 论 旗 标 还 是 自 旋 锁 都 不 允许 一 个 持 锁 者 第 2 次 请 求 锁 ; 如 果 你 试图 这 
样 做 ， 事 情 就 简单 地 完了 . 














为 使 的 加 锁 正 确 工 作 ， 你 不 得 不 编写 一 些 函 数 ， 假 定 它们 的 调用 者 已 经 获取 了 相关 的 锁 . 
常常 地 ， 只 有 你 的 内 部 的 ， 静 态 函 数 能 够 这 样 编写 ; 从 外 部 调用 的 函数 必须 明确 处 理 加 锁 . 
当 你 编写 内 部 函数 对 加 锁 做 了 假设 ， 方 便 自己 (和 其 他 使 用 你 的 代码 的 人 ) 并 且 明 确 记录 这 
些 假设 .在 儿 个 月 后 可 能 很 难 回来 并 记 起 是 否 你 需要 持 有 一 个 锁 来 调用 一 个 特殊 函数 . 













































































在 sucll 的 例子 里 ， 采 用 的 设计 决定 是 要 求 所 有 的 函数 直接 从 系统 调用 里 调用 ， 来 请 求 
应 用 到 被 存 取 的 设备 结构 上 的 旗 标 ,所 有 的 内 部 函数 ， 那 些 只 是 从 其 他 scull 函数 里 调 
用 的 ， 可 以 因此 假设 旗 标 已 经 正确 获得 . 


5.6.2. 加 锁 顺 序 规则 
在 有 大 量 锁 的 系统 中 (并 且 内 核 在 成 为 这 样 一 个 系统 )， 一 次 需要 持 有 多 于 一 个 锁 ， 对 代码 


是 不 寻常 的 .如 果菜 类 计算 必须 使 用 2 个 不 同 的 资源 进行 ， 每 个 有 它 上 自己 的 锁 ， 常 常 没 
有 选择 只 能 获取 2 个 锁 . 









































获得 多 个 锁 可 能 是 危险 的 ， 然 而 .如果 你 有 2 个 锁 ， 称 为 Lockl 和 Lock2， 代 码 需要 同 
时 都 获取 ， 你 有 一 个 潜在 的 死 锁 ， 仅 仅 想象 一 个 线程 锁 住 Lockl 而 另 一 个 同时 获得 
Lock2， 接 着 每 个 线程 试图 得 到 它 没 有 的 那个 ，2 个 线程 都 会 死 锁 . 








这 个 问题 的 解决 方法 常常 是 简单 的 : 当 多 个 锁 必 须 获 得 时 ， 它 们 应 当 一 直 以 同样 顺序 获得 . 
只 要 遵照 这 个 惯例 ， 象 上 面 描述 的 简单 死 锁 能 够 避免 ， 然而， 遵照 加 锁 顺 序 规则 是 做 比 说 
HE. 非常 少见 这 样 的 规则 真正 在 任何 地 方 被 写 下 ， 第 常 你 能 做 的 最 好 的 是 看 看 别 的 代码 如 
何 做 的 . 




















一 些 经 验 规则 能 帮 上 忙 ， 如果 你 必须 获得 一 个 对 你 的 代码 来 说 的 本 地 锁 ( 假 如 ， 一 个 设备 
WW), ， 以 及 一 个 属于 内 核 更 中 心 部 分 的 锁 ， 先 获取 你 的 ， 如 果 你 有 一 个 旗 标 和 上 自 旋 锁 的 组 
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合 ， 你 必须 ， 当 然 ， 先 获得 旗 标 ; 调用 down (可 能 睡眠 ) 在 持 有 一 个 自 旋 锁 时 是 一 个 严 
重 的 错误 .但 是 最 重要 的 ， 尽 力 避 免 需要 多 于 一 个 锁 的 情况 . 


5. 6. 3， 细 - 粗 - 粒度 加 锁 


第 一 个 支持 多 处 理 器 系统 的 Linux 内 核 是 2.0; 它 只 含有 一 个 自 旋 锁 ， 这 个 大 内 核 锁 将 
整个 内 核 变 为 一 个 大 的 临界 区 ; 在 任何 时 候 只 有 一 个 CPU 能 够 执行 内 核 代码 ， 这 个 锁 足 
够 好 地 解决 了 并 发 问题 以 允许 内 核 开 发 者 从 事 所 有 其 他 的 开发 SMP 所 包含 的 问题 . 但 是 
它 不 是 扩充 地 很 好 ， 甚 至 一 个 2 个 处 理 器 的 系统 可 能 花费 可 观 数量 的 时 间 只 是 等 待 这 个 
大 内 核 锁 ， 一 个 4 个 处 理 器 的 系统 的 性 能 甚至 不 接近 4 个 独立 的 机 器 的 性 能 . 






































因此 ， 后 续 的 内 核发 布 已 经 包含 了 更 细 粒 度 的 加 锁 ， 在 2.2 中 ， 一 个 自 旋 锁 控制 对 块 

1/0 子 系统 的 存 取 ; 另 一 个 为 网 络 而 工作 ， 等 等 ， 一 个 现代 的 内 核能 包含 几 千 个 锁 ， 每 个 
保护 一 个 小 的 资源 ， 这 种 细 粒 度 的 加 锁 可 能 对 伸缩 性 是 好 的 ; 它 允 许 每 个 处 理 器 在 它 自 己 
特定 的 任务 上 工作 而 不 必 竞 争 其 他 处 理 器 使 用 的 锁 ， 很 少 人 忘记 大 内 核 锁 . 0 

















但 是 ， 细 粒度 加 锁 带 有 开销 ， 在 有 几 千 个 锁 的 内 核 中 ， 很 难 知道 你 需要 那个 锁 一 以 及 你 
应 当 以 什么 顺序 获取 它们 一 来 进行 一 个 特定 的 操作 ， 记 住 加 锁 错 误 可 能 非常 难 发 现 ; 更 
多 的 锁 提供 了 更 多 的 机 会 使 真正 有 害 的 加 锁 bug 钻 进 内 核 中 ， 细 粒度 加 锁 能 带 来 一 定 水 
平 的 复杂 性 ， 长 期 来 ， 对 内 核 的 可 维护 性 有 一 个 大 的 ， 不 利 的 效果 . 














在 一 个 设备 驱动 中 加 锁 常常 是 相对 直接 的 ; 你 可 以 用 一 个 锁 来 涵盖 你 做 的 所 有 东西 ， 或 者 
你 可 以 给 你 管理 的 每 个 设备 创建 一 个 锁 ， 作 为 一 个 通用 的 规则 ， 你 应 当 从 相对 粗 的 加 锁 开 
人 ， 除 非 你 有 确实 的 理由 相信 竞争 可 能 是 一 个 问题 ， 妨 住 伏 是 去 过 早 地 优化 ， 真实 地 性 能 
约束 常常 表现 在 想不到 的 地 方 . 












































如 果 你 确实 怀疑 锁 竞 争 在 损坏 性 能 ， 你 可 能 发 现 lockmeter 工具 有 用 .这 个 补丁 (从 
http://oss. sgi. com/projects/lockmeter/ 可 得 到 ) 装备 内 核 来 测量 在 锁 等 待 花费 的 时 
间 ， 通 过 看 这 个 报告 ， 你 能 够 很 快 知道 是 否 锁 竞 争 真 的 是 问题 . 


5. 7， 加 锁 的 各 种 选择 


Linux 内 核 提 供 了 不 少 有 力 的 加 锁 原 语 能 够 用 来 使 内 核 避免 被 自己 绊 倒 ， 但 是 ， 如 同 我 们 
已 见 到 的 ， 一 个 加 锁 机 制 的 设计 和 实现 不 是 没有 缺陷 ， 第 常 对 于 旗 标 和 上 自 旋 锁 没 有 选择 ; 
它们 可 能 是 唯一 的 方法 来 正确 地 完成 工作 ， 然 而 ， 有 些 情 况 ， 可 以 建立 原子 的 存 取 而 不 用 
完整 的 加 锁 ， 本 节 看 一 下 做 事情 的 其 他 方法 . 


5. 7. 1， 不 加 锁 算 法 
有 时， 你 可 以 重新 打造 你 的 算法 来 完全 避免 加 锁 的 需要 .许多 读者 / 写 者 情况 -- 如 果 只 


有 一 个 写 者 — 常常 能 够 在 这 个 方式 下 工作 ， 如 果 写 者 小 心 使 数据 结构 的 视图 ， 由 读者 所 
见 的 ， 是 一 直 一 致 的 ， 有 可 能 创建 一 个 不 加 锁 的 数据 结构 . 











































































































19 [19] , 


这 个 锁 仍然 存在 于 2. 6， 几 个 它 现在 覆盖 内 核 非 常 小 的 部 分 ， 如 果 你 偶然 发 现 一 个 lock kernel 调用 ， 你 已 找到 
了 这 个 大 内 核 锁 . 但 是 ， 想 都 不 要 想 在 任何 新 代码 中 使 用 它 . 
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常常 可 以 对 无 锁 的 生产 者 /消费 者 任务 有 用 的 数据 结构 是 环形 缓存 ， 这 个 算法 包含 一 个 生 
产 者 安放 数据 到 一 个 数组 的 尾 端 ， 而 消费 者 从 另 一 端 移 走 数据 ， 当 到 达 数 组 末端 ， 生 产 者 
绕 回 到 开始 .因此 一 个 环形 缓存 需要 一 个 数组 和 2 个 索引 值 来 跟踪 下 一 个 新 值 放 到 哪里 ， 
以 及 哪个 值 在 下 一 次 应 当 从 缓存 中 移 走 . 




















当 小 心地 实现 了 ， 一 个 环形 缓存 在 没有 多 个 生产 者 或 消费 者 时 不 需要 加 锁 ， 生 产 者 是 唯一 
允许 修改 写 索 引 和 它 所 指向 的 数组 位 置 的 线程 . 只 要 写 者 在 更 新 写 索 引 之 前 存储 一 个 新 值 
到 缓存 中 ， 读 者 将 一 直 看 到 一 个 一 致 的 视图 ， 读 者 ， 轮 换 地 ， 是 唯一 存 取 读 索引 和 它 指向 
的 值 的 线程 ， 加 一 点 小 心 到 确保 2 个 指针 不 相互 覆盖 ， 生 产 者 和 消费 者 可 以 并 发 存 取 组 
存 而 没有 竞争 情况 . 














图 环形 绥 冲 展示 了 在 儿 个 填充 状态 的 环形 缓存 ， 这 个 缓存 被 定义 成 一 个 空 情 况 由 读 写 指针 
相同 来 指示 ， 而 满 情况 发 生 在 写 指 针 紧 跟 在 读 指针 后 面 的 时 候 ( 小 心 解决 绕 回 !)， 当 小 心 
地 编程 ， 这 个 缓存 能 够 不 必 加 锁 地 使 用 . 





图 5.1. 环形 缓冲 
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在 设备 张 动 中 环形 缓存 出 现 相 当 多 . 网 络 适配器 ， 特 别 地 ， 常 常 使 用 环形 缓存 来 与 处 理 器 
交换 数据 ( 报 文 ). 注意 ， 对 于 2. 6. 10， 有 一 个 通用 的 环形 缓存 实现 在 内 核 中 可 用 ; 如 何 
使 用 它 的 信息 看 Xlinux/kfifo. h^. 


5.7.2. 原子 变量 


有 时 ， 一 个 共享 资源 是 一 个 简单 的 整数 值 ， 假设 你 的 驱动 维护 一 个 共享 变量 n_op， 它 告 
知 有 多 少 设备 操 作 目 前 未 完成 ， 正常 地 ， 即 便 一 个 简单 的 操作 例如 : 


























n optt; 








可 能 需要 加 锁 ， 某 些 处 理 器 可 能 以 原子 的 方式 进行 那 种 递减 ， 但 是 你 不 能 依赖 它 ， 但 是 一 
个 完整 的 加 锁 体 制 对 于 一 个 简单 的 整数 值 看 来 过 分 了 .对 于 这 样 的 情况 ， 内 核 提 供 了 一 个 
原子 整数 类 型 称 为 atomic t， 定 义 在 《asm/atomic. h>. 





一 个 atomic t 持 有 一 个 int 值 在 所 有 支持 的 体系 上 .但 是 ， 因 为 这 个 类 型 在 某 些 处 理 
器 上 的 工作 方式 ， 整 个 整数 范围 可 能 不 是 都 可 用 的 ; 因此 ， 你 不 应 当 指 望 一 个 atomic t 
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持 有 多 于 24 位 ， 下 面 的 操作 为 这 个 类型 定义 并 且 保证 对 于 一 个 SMP 计算 机 的 所 有 处 
器 来 说 是 原子 的 ， 操 作 是 非常 快 的 ， 因 为 它们 在 任何 可 能 时 编译 成 一 条 单个 机 器 指令 





Ha 








void atomic set(atomic t *v, int i); 
atomic t v = ATOMIC INIT(0) ; 














设置 原子 变量 v 为 整数 值 1， 你 也 可 在 编译 时 使 用 宏 定 义 ATOMIC INIT 初始 化 原 
TE 





int atomic read(atomic t *v); 
返回 v 的 当前 值 . 
void atomic add(int i, atomic t *v); 


由 v 指向 的 原子 变量 加 i， 返回 值 是 void， 因 为 有 一 个 额外 的 开销 来 返回 新 值 ， 
并 且 大 部 分 时 间 不 需要 知道 它 . 








void atomic sub(int i, atomic t *v); 
从 *#v 减 去 i. 


void atomic inc(atomic t *v); 
void atomic dec(atomic t **v); 





递增 或 递减 一 个 原子 变量 . 


int atomic inc and test(atomic t *v); 
int atomic dec and test(atomic t *v); 
int atomic sub and test(int i, atomic t *v); 





进行 一 个 特定 的 操作 并 且 测 试 结果 ; 如 果 ， 在 操作 后 ， 原 子 值 是 0， 那 么 返回 值 是 


E; 否则 ， 它 是 假 ， 注意 没有 atomic add and test. 
int atomic add negative(int i, atomic t *v); 


加 整数 变量 i 到 v， 如 果 结 果 是 负 值 返回 值 是 真 ， 否 则 为 假 





int atomic add return(int i, atomic t *v); 
int atomic sub return(int i, atomic t *v); 
int atomic inc return(atomic t *v); 
int atomic dec return(atomic t *v); 


就 像 atomic add 和 其 类 似 函数 ， 除 了 它们 返回 原子 变量 的 新 值 给 调用 者 . 





如 同 它们 说 过 的 ，atomic_t 数据 项 必须 通过 这 些 函数 存 取 .如果 你 传递 一 个 原子 项 给 
个 期 望 一 个 整数 参数 的 函数 ， 你 会 得 到 一 个 编译 错误 . 
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你 还 应 当 记 住 ，atomic t 值 只 在 当 被 置疑 的 量 真正 是 原子 的 时 候 才 起 作用 .需要 多 个 
atomic t 变量 的 操作 仍然 需要 某 种 其 他 种 类 的 加 锁 ， 考 虑 一 下 下 面 的 代码 : 














atomic sub(amount, &first atomic); 
atomic add(amount, &second atomic); 


WpUnlla bc APER dr ml 存在 一 段 时 间 . 如果 事 情 的 
这 个 状态 可 能 产生 麻烦 给 可 能 在 这 2 个 操作 之 间 运 行 的 代码 ， 某 种 加 锁 必 须 采用 . 


5.7. 3， 位 操作 
atomic t 类 型 在 进行 整数 算术 时 是 不 错 的 ， 但 是 ， 它 无 法 工作 的 好 ， 当 你 需要 以 原子 方 


ABIERTA]. 为 此 ， 内 核 提 供 了 一 套 函 数 来 原子 地 修改 或 测试 单个 位 ， 因 为 整个 操作 
在 单 步 内 发 生 ， 没 有 中 断 (或 者 其 他 处 理 器 ) 能 干扰 . 
































原子 位 操作 非常 快 ， 因 为 它们 使 用 单个 机 器 指令 来 进行 操作 ， 而 在 任何 时 候 低层 平台 做 的 
时 候 不 用 禁 目 中断， 函数 是 体系 依赖 的 并 且 在 “asm/bitops.h> 中 声明 .它们 保证 是 原子 
的 ， 即 便 在 SMP 计算 机 上 ， 并 且 对 于 跨 处 理 器 保持 一 臻 是 有 用 的 . 














不 幸 的 是 ， 键 入 这 些 函 数 中 的 数据 也 是 体系 依赖 的 ，nr 参数 (描述 要 操作 哪个 位 ) 常常 定 
义 为 int， 但 是 在 几 个 体系 中 是 unsigned long. 要 修改 的 地 址 常常 是 一 个 unsigned 
long 指针 ， 但 是 几 个 体系 使 用 void x RE. 


各 种 位 操作 是 : 




















void set bit(nr, void *addr); 
设置 第 nr 位 在 addr 指向 的 数据 项 中 . 
void clear bit (nr, void *addr); 


清除 指定 位 在 addr 处 的 无 符号 长 型 数据 ， 它 的 语义 与 set bit 的 相反 . 





void change bit (nr, void *addr); 
翻转 这 个 位 . 


test bit(nr, void *addr); 











这 个 函数 是 唯一 一 个 不 需要 是 原子 的 位 操作 ; 它 简 单 地 返回 这 个 位 的 当前 值 . 


int test and set bit(nr, void *addr); 
int test and clear bit(nr, void *addr); 
int test and change bit (nr, void *addr); 





原子 地 动作 如 同 前 面 列 出 的 ， 除 了 它们 还 返回 这 个 位 以 前 的 值 . 
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当 这 些 函 数 用 来 存 取 和 修改 一 个 共享 的 标志 ， 除 了 调用 它们 不 用 做 任何 事 ; 它们 以 原子 发 
生 进 行 它们 的 操作 ， 使 用 位 操作 来 管理 一 个 控制 存 取 一 个 共享 变量 的 锁 变 量 ， 另 一 方面 ， 
是 有 点 复杂 并 且 应 该 有 个 例子 ， 大 部 分 现代 的 代码 不 以 这 种 方法 来 使 用 位 操作 ， 但 是 象 下 
面 的 代码 仍然 在 内 核 中 存在 . 






































一 段 需要 存 取 一 个 共享 数据 项 的 代码 试图 原子 地 请 求 一 个 锁 ， 使 用 test and set bit 或 
者 test and clear bit. 通常 的 实现 展示 在 这 里 ; 它 假 定 锁 是 在 地 址 addr 的 nr 位 . 
它 还 假定 当 锁 空闲 是 这 个 位 是 0， 人 忙 为 JEF. 








/* try to set lock */ 
while (test and set bit(nr, addr) != 0) 
wait for a while; 


/* do your work */ 
/* release lock, and check... */ 


if (test and clear bit(nr, addr) -- 0) 
something went wrong(); /* already released: error */ 





如 果 你 通读 内 核 源码 ， 你 会 发 现象 这 个 例子 的 代码 但是， 最 好 在 新 代码 中 使 用 目 旋 锁 ; 
自 旋 锁 很 好 地 调试 过 ， 它 们 处 理 问题 如 同 中 断 和 内 核 抢 占 ， 并 且 别 人 读 你 代码 时 不 必 努 力 
理解 你 在 做 什么 . 























5.7.4. seglock 锁 





2.6 内 核 包 含 了 一 对 新 机 制 打算 来 提供 快速 地 ， 无 锁 地 存 取 一 个 共享 资源 seqlock 在 这 
种 情况 下 工作 ， 要 保护 的 资源 小 ， 简 单 ， 并 且 常 党 被 存 取 ， 并 且 很 少 写 存 取 但 是 必须 要 快 ， 
基本 上 ， 它 们 通过 允许 读者 释放 对 资源 的 存 取 ， 但 是 要 求 这 些 读 者 来 检查 与 写 者 的 冲突 而 
工作 ， 并 且 当 发 生 这 样 的 冲突 时 ， 重 试 它们 的 存 取 .seqlock 通常 不 能 用 在 保护 包含 指针 
的 数据 结构 ， 因 为 读者 可 能 跟随 着 一 个 无 效 指针 而 写 者 在 改变 数据 结构 . 














— 











seglock 4E X.4E. Xlinux/seglock.h». 有 2 个 通常 的 方法 来 初始 化 一 个 seglock( 有 
seglock t 类 型 ) : 


seglock t lockl = SEQLOCK UNLOCKED; 


seglock t lock2; 
seglock init (&lock2) ; 











读 存 取 通 过 在 进入 临界 区 入 口 获取 一 个 (无 符号 的 ) 整数 序列 来 工作 ， 在 退出 时 ， 那 个 序列 
值 与 当前 值 比较 ; 如 果 不 匹 配 ， 读 存 取 必 须 重 试 . 结果 是 ， 读 者 代码 象 下 面 的 形式 : 





unsigned int seq; 


do 1 
seq = read seqbegin(&the lock); 
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/* Do what you need to do */ 
) while read seqretry(&the lock, seq); 





这 个 类 型 的 锁 常 常用 在 保护 某 种 简单 计算 ， 需 要 多 个 一 致 的 值 ， 如 果 这 个 计算 最 后 的 测试 
表明 发 生 了 一 个 并 发 的 号， 结果 被 简单 地 丢弃 并 且 重 新 计算 . 














如 果 你 的 seqlock 可 能 从 一 个 中 断 处 理 里 存 取 ， 你 应 当 使 用 IRQ 安全 的 版 本 来 代替 : 





unsigned int read seqbegin irqsave(seqlock t *lock, unsigned long flags); 

int read seqretry irqrestore(seqlock t *lock, unsigned int seq, unsigned long 
flags); 

写 者 必须 获取 一 个 排他 锁 来 进入 由 一 个 sealock 保护 的 临界 区 .为 此 ， 调 用 : 


void write seglock(seqlock t *lock); 





写 锁 由 一 个 自 旋 锁 实 现 ， 因 此 所 有 的 通常 的 限制 都 适用 ， 调 用 : 





void write sequnlock(seglock t *lock); 





来 释放 锁 ， 因 为 自 旋 锁 用 来 控制 写 存 取 ， 所 有 通常 的 变 体 都 可 用 : 


void write seqlock irqsave(seqlock t *lock, unsigned long flags); 
void write seqlock irq(seglock t *lock); 
void write seglock bh(seglock t *lock); 


void write sequnlock irqrestore(seglock t *lock, unsigned long flags); 
void write sequnlock irq(seqlock t *lock); 
void write sequnlock bh(seglock t *lock); 


还 有 一 个 write tryseglock 在 它 能 够 获得 锁 时 返回 非 零 . 

5.7.5. 读 取 - 拷 贝 -更 新 

读 取 -拷贝 -更 新 (RCU) 是 一 个 高 级 的 互 斥 方法 ， 能 够 有 高 效率 在 合适 的 情况 下 ， 它 在 驱动 
中 的 使 用 很 少 但 是 不 是 没 人 知道， 因此 这 里 值得 快速 浏览 下 ， 那 些 感 兴趣 RCU 算法 的 完 
整 细节 的 人 可 以 在 由 它 的 创建 者 出 版 的 白皮书 中 找到 


( http://www. rdrop. com/users/paulmck/rclock/intro/rclock intro. html). 























RCU 对 它 所 保护 的 数据 结构 设置 了 不 少 限制 ， 它 对 经 常 读 而 极 少 写 的 情况 做 了 优化 ， 被 保 
护 的 资源 应 当 通 过 指针 来 存 取 ， 并 且 所 有 对 这 些 资源 的 引用 必须 由 原子 代码 持 有 .， 当 数据 
结构 需要 改变 ， 写 线程 做 一 个 找 贝 ， 改 变 这 个 拷贝 ， 接 着 使 相关 的 指针 对 准 新 的 版 本 一 
因此 ， 有 了 算法 的 名 子 ， 当 内 核 确认 没有 留 下 对 旧版 本 的 引用 ， 它 可 以 被 释放 . 












































作为 在 真实 世界 中 使 用 RCU 的 例子 ， 考 虑 一 下 网 络 路 由 表 ， 每 个 外 出 的 报 文 需要 请 求 检 

查 路 由 表 来 决定 应 当 使 用 哪个 接口 ， 这 个 检查 是 快速 的 ， 并 且 ， 一 旦 内 核发 现 了 目标 接口 
它 不 再 需要 路 由 表 入 口 项 ，RCU 允许 路 由 查找 在 没有 锁 的 情况 下 进行 ， 具 有 相当 多 的 性 能 
好 处 ， 内 核 中 的 Startmode 无 线 IP 驱动 也 使 用 RCU 来 跟踪 它 的 设备 列表 . 
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使 用 RCU 的 代码 应 当 包 含 《linux/rcupdate. h>. 








在 读 这 一 边 ， 使 用 一 个 RCU- 保 护 的 数据 结构 的 代码 应 当 用 rcu_read_lock 和 
rcu read unlock 调用 将 它 的 引用 包含 起 来 ， 结果 就 是 ，RCU 代码 往往 是 象 这 样 : 








struct my stuff **stuff; 

rcu read lock (0 ; 

stuff = find the stuff (args...) ; 
do something with (stuff) ; 

rcu read unlock() ; 





rcu read lock 调用 是 快 的 ; 它 禁 止 内 核 抢占 但 是 没有 等 待 任何 东西 ， 在读“ 锁 “被 持 有 时 
执行 的 代码 必须 是 原子 的 .在 对 rcu read unlock 调用 后 ， 没 有 使 用 对 被 保护 的 资源 的 
引用 . 























需要 改变 被 保护 的 结构 的 代码 必须 进行 儿 个 步骤 第 一 步 是 容易 的 ; 它 分 配 一 个 新 结构 ， 
如 果 需 要 就 从 旧 的 找 贝 数据 ， 接 着 替换 读 代 码 所 看 到 的 指针 .在 此 ， 对 于 读 一 边 的 目的 ， 
改变 结束 了 .任何 进入 临界 区 的 代码 看 到 数据 的 新 版 本 . 























剩 下 的 是 释放 旧版 本 当然， 问题 是 在 其 他 处 理 器 上 运行 的 代码 可 能 仍然 有 对 有 旧 数 据 的 一 
个 引用 ， 因 此 它 不 能 立刻 释放 .， 相 反 ， 写 代码 必须 等 等 直到 它 知 道 没 有 这 样 的 引用 存在 了 . 
因为 所 有 持 有 对 这 个 数据 结构 引用 的 代码 必须 (规则 规定 ) 是 原子 的 ， 我 们 知道 一 旦 系统 中 
的 每 个 处 理 器 已 经 被 调度 了 至 少 一 次 ， 所 有 的 引用 必须 消失 ， 这 就 是 RCU 所 做 的 ; 它 留 
下 了 一 个 等 待 直 到 所 有 处 理 器 已 经 调度 的 回调 ; 那个 回调 接 下 来 被 运行 来 进行 清理 工作 . 












































改变 一 个 RCU- 保 护 的 数据 结构 的 代码 必须 通过 分 配 一 个 struct rcu head 来 获得 它 的 清 
理 回调 ， 尽 管 不 需要 以 任何 方式 初始 化 这 个 结构 ， 常 常 ， 那 个 结构 被 简单 地 嵌入 在 RCU 
所 保护 的 大 的 资源 里 面 ， 在 改变 资源 完成 后 ， 应 当 调用 : 









































void call rcu(struct rcu head *head, void Ckfunc) (void *arg), void *arg); 


给 定 的 fune 在 释放 资源 是 安全 的 时 候 调 用 ; 传递 给 call rcu 的 是 给 同一 个 arg. 76$, 
func 需要 的 唯一 的 东西 是 调用 kfree. 





























全 部 RCU 接口 比 我 们 已 见 的 要 更 加 复杂 ; 它 包 括 ， 例 如 ， 辅 助 函数 来 使 用 被 保护 的 链表 . 
全 部 内 容 见 相关 的 头 文件 . 


5. 8， 人 快速 参考 


本 章 已 介绍 了 很 多 符号 给 3 














bs 
$ 
RÈ 
c 

s 
y 


FEES WERA ETE MA: 











Sinclude Xasm/semaphore. h> 
定义 弃 标 和 其 上 操作 的 包含 文件 . 


DECLARE MUTEX (name) ; 
DECLARE MUTEX LOCKED (name) ; 
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2 个 宏 定 义 ， 用 来 声明 和 初始 化 一 个 在 互 斥 模 式 下 使 用 的 旗 标 . 





void init MUTEX(struct semaphore *sem); 
void init MUTEX LOCKED (struct semaphore *sem) ; 


这 2 函数 用 来 在 运行 时 初始 化 一 个 旗 标 . 


void down(struct semaphore *sem); 

int down interruptible(struct semaphore *sem); 
int down trylock(struct semaphore *sem); 

void up(struct semaphore *sem); 








加 锁 和 解锁 旗 标 . down 使 调用 进程 进入 不 可 打 断 睡眠 ， 如 果 需 要 ; 
down_interfuptible， 相 反 ， 可 以 被 信号 打 断 ， down trylock PEIR; 相反 ， 它 
立刻 返回 如 果 弃 标 不 可 用 . 加 锁 旗 标 的 代码 必须 最 终 使 用 up 解锁 它 . 

















struct rw semaphore; 
init rwsem(struct rw semaphore *sem) ; 


旗 标 的 读者 / 写 者 版 本 和 初始 化 它 的 函数 . 


void down read(struct rw semaphore *sem) ; 
int down read trylock(struct rw semaphore *sem); 
void up read(struct rw semaphore *sem); 








获得 和 释放 对 读者 / 写 者 旗 标 的 读 存 取 的 函数 . 


void down write(struct rw semaphore *sem); 

int down write trylock(struct rw semaphore *sem); 
void up write(struct rw semaphore *sem); 

void downgrade write(struct rw semaphore *sem); 





Dg 
VH 


里 对 读者 / 写 者 旗 标 写 存 取 的 函数 . 








#include Xlinux/completion. h> 

DECLARE COMPLETION (name) ; 

init completion(struct completion **c); 
INIT COMPLETION(struct completion c); 





描述 Linux completion 机 制 的 包含 文件 ， 已 经 初始 化 completion 的 正常 方法 . 
INIT COMPLETION 应 当 只 用 来 重新 初始 化 一 个 之 前 已 经 使 用 过 的 completion. 

















void wait for completion(struct completion *c); 
等 待 一 个 completion 事件 发 出 . 


void complete (struct completion **c); 
void complete all(struct completion *c); 
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发 出 一 个 completion $F. completion 唤醒 ， 最 多 ， 一 个 等 待 着 的 线程 ， 而 
complete all 唤醒 全 部 等 待 者 . 





void complete and exit(struct completion *c, long retval); 
通过 调用 complete 来 发 出 一 个 completion FF, 3E HB ZeRH exit. 


Sinclude Xlinux/spinlock. h> 
spinlock t lock - SPIN LOCK UNLOCKED; 
spin lock init(spinlock t *lock); 





[E 


定义 自 旋 锁 接 口 的 包含 文件 ， 以 及 初始 化 锁 的 2 个 方法 


void spin lock(spinlock t *lock); 

void spin lock irqsave(spinlock t *lock, unsigned long flags); 
void spin lock irq(spinlock t *lock); 

void spin lock bh(spinlock t *lock); 





加 锁 一 个 自 旋 锁 的 各 种 方法 ， 并 且 ， 可 能 地 ， 茜 止 中 断 ， 


int spin trylock(spinlock t *lock); 
int spin trylock bh(spinlock t *lock); 





上 面 函 数 的 非 自 旋 版 本 ; 在 获取 锁 失 败 时 返回 0, SEF. 


void spin unlock(spinlock t *lock); 

void spin unlock irqrestore(spinlock t *lock, unsigned long flags); 
void spin unlock irq(spinlock t *lock); 

void spin unlock bh(spinlock t *lock); 





释放 一 个 自 旋 锁 的 相应 方法 


rwlock t lock = RW LOCK UNLOCKED 
rwlock init(rwlock t *lock); 





初始 化 读者 / 写 者 锁 的 2 个 方法 . 


void read lock(rwlock t *lock); 

void read lock irqsave(rwlock t *lock, unsigned long flags); 
void read lock irq(rwlock t *lock); 

void read lock bh(rwlock t *lock); 


获得 一 个 读者 / 写 者 锁 的 读 存 取 的 函数 . 


void read unlock(rwlock t *lock); 

void read unlock irqrestore(rwlock t *lock, unsigned long flags); 
void read unlock irq(rwlock t *lock); 

void read unlock bh(rwlock t *lock); 
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释放 一 个 读者 / 写 者 自 旋 锁 的 读 存 取 . 


void write lock(rwlock t *lock); 

void write lock irqsave(rwlock t *lock, unsigned long flags); 
void write lock irq(rwlock t *lock); 

void write lock bh(rwlock t *lock); 


获得 一 个 读者 / 写 者 锁 的 写 存 取 的 函数 . 


void write unlock(rwlock t *lock); 

void write unlock irqrestore(rwlock t *lock, unsigned long flags); 
void write unlock irq(rwlock t *lock); 

void write unlock bh(rwlock t *lock); 





释放 一 个 读者 / 写 者 目 旋 锁 的 写 存 取 的 函数 


#include <asm/atomic. h> 

atomic t v = ATOMIC INIT (value); 

void atomic set(atomic t *v, int i); 

int atomic read(atomic t *v); 

void atomic add(int i, atomic t **v); 

void atomic sub(int i, atomic t *v); 

void atomic inc(atomic t *v); 

void atomic dec(atomic t *v); 

int atomic inc and test(atomic t *v); 

int atomic dec and test(atomic t *v); 

int atomic sub and test(int i, atomic t *v); 
int atomic add negative(int i, atomic t *v); 
int atomic add return(int i, atomic t *v); 
int atomic sub return(int i, atomic t *v); 
int atomic inc return(atomic t **v); 

int atomic dec return(atomic t *v); 


原子 地 存 取 整数 变量 . atomic t 变量 必须 只 通过 这 些 函 数 存 取 . 





#ijinclude Xasm/bitops. h> 

void set bit(nr, void *addr); 

void clear bit(nr, void *addr) ; 

void change bit(nr, void *addr); 

test bit(nr, void *addr); 

int test and set bit(nr, void *addr); 
int test and clear bit(nr, void *addr); 
int test and change bit(nr, void *addr); 





pan) 


原子 地 存 取 位 值 ; 它们 可 用 做 标志 或 者 锁 变 量 ， 使 用 这 些 函 数 阻 止 任何 与 并 发 存 取 
这 个 位 相关 的 竞争 情况 . 
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&include Xlinux/seqlock. h> 
seqlock t lock = SEQLOCK UNLOCKED; 
seglock init(seqlock t *lock); 





J 


定义 seglock 的 包含 文件 ， 已 经 初始 化 它们 的 2 个 方法 . 


unsigned int read seqbegin(seqlock t *lock); 

unsigned int read seqbegin irqsave(seqlock t *lock, unsigned long flags); 

int read seqretry(seqlock t *lock, unsigned int seg); 

int read seqretry irqrestore(seqlock t *lock, unsigned int seq, unsigned long 
flags); 


获得 一 个 seqlock- 保 护 的 资源 的 读 权限 的 函数 . 


void write seqlock(seqlock t *lock); 

void write seqlock irqsave(seqlock t *lock, unsigned long flags); 
void write seqlock irq(seglock t *lock); 

void write seqlock bh(seqlock t *lock); 


获取 一 个 seqlock- 保 护 的 资源 的 写 权 限 的 函数 . 


void write sequnlock(seglock t *lock); 

void write sequnlock irqrestore(seglock t *lock, unsigned long flags); 
void write sequnlock irq(seqlock t *lock); 

void write sequnlock bh(seglock t *lock); 


释放 一 个 sedqlock- 保 护 的 资源 的 写 权 限 的 函数 . 


Sinclude <linux/rcupdate. h> 











需要 使 用 读 取 - 找 贝 -更 新 (RCU) 机 制 的 包含 文件 . 


void rcu read lock; 
void rcu read unlock; 





获取 对 由 RCU 保护 的 资源 的 原子 读 权 限 的 宏 定 义 . 


void call rcu(struct rcu head *head, void Ckfunc) (void *arg), void *arg); 





安排 一 个 回调 在 所 有 处 理 器 已 经 被 调度 以 及 一 个 RCU- 保 护 的 资源 可 用 被 安全 的 释 
放 之 后 运行 . 
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第 6 XE 高 级 字符 驱动 操作 
在 第 3 章 ， 我 们 建立 了 一 个 完整 的 设备 驱动 ， 用 户 可 用 来 号 入 和 读 取 ， 但 是 一 个 真正 的 
设备 常常 提供 比 同步 读 和 写 更 多 的 功能 .现在 我 们 已 装备 有 调试 工具 如 果 发 生 错 误 ， 并 且 


一 个 牢固 的 并 发 的 理解 来 帮助 避免 事情 进入 错误 -- 我 们 可 安全 地 前 进 并 且 创 建 一 个 更 高 
级 的 驱动 . 















































本 章 检 查 几 个 你 需要 理解 的 概念 来 编写 全 特性 的 字符 设备 驱动 ， 我 们 从 实现 ioctl 系统 

调用 开始 ， 它 是 用 作 设 备 控制 的 普通 接口 ， 接 着 我 们 进入 各 种 和 用 户 空 间 同 步 的 方法 ; 在 
本 章 结尾 ， 你 有 一 个 充分 的 认识 对 于 如 何 使 进程 睡眠 (并 且 唤 醒 它 们 )， 实 现 非 阻塞 的 1/0, 
并 且 通 知 用 户 空 间 当 你 的 设备 可 用 来 读 或 号， 我 们 以 查看 如 何在 驱动 中 实现 几 个 不 同 的 设 
备 存 取 策 略 来 结束 . 


这 里 讨论 的 概念 通过 scull 驱动 的 几 个 修改 版 本 来 演示 ， 再 一 次 ， 所 有 的 都 使 用 内 存 中 
的 虚拟 设备 来 实现 ， 因 此 你 可 自己 试验 这 些 代码 而 不 必 使 用 任何 特别 的 硬件， 到 此 为 止 ， 
你 可 能 在 想 杀 手 使 用 真正 的 硬件 ， 但 是 那 将 必须 等 到 第 9 2t. 


6.1. ioctl 接口 


大 部 分 驱动 需要 — 除了 读 写 设备 的 能 力 — 通过 设备 驱动 进行 各 种 硬件 控制 的 能 力 ， 大 
部 分 设备 可 进行 超出 简单 的 数据 传输 之 外 的 操作 ;用 户 空 间 必 须 常常 能 够 请 求 ， 例 如 ， 设 
备 锁 上 它 的 门 ， 弹 出 它 的 介质 ， 报 告 错 误 信息 ， 改 变 波 特 率 ， 或 者 日 我 销毁 ， 这些 操作 常 
常 通过 ioctl 方法 来 文 持 ， 它 通过 相同 名 子 的 系统 调用 来 实现 . 
























































在 用 户 空 间 ，ioct1l 系统 调用 有 下 面 的 原型 : 


int ioctl(int fd, unsigned long cmd, ...); 





这 个 原型 由 于 这 些 点 而 凸现 于 Unix 系统 调用 列表 ， 这 些 点 常常 表示 函数 有 数目 不 定 的 参 
数 . 在 实际 系统 中 ， 但 是 ， 一 个 系统 调用 不 能 真正 有 变数 目的 参数 . 系统 调用 必须 有 一 个 
很 好 定义 的 原型 ， 因 为 用 户 程 序 可 存 取 它 们 只 能 通过 硬件 的 “ 门 “， 因此， 原型 中 的 点 不 表 
示 一 个 变数 目的 参数 ， 而 是 一 个 单个 可 选 的 参数 ， 传 统 上 标识 为 char *argp. 这 些 点 在 
那里 只 是 为 了 阻止 在 编译 时 的 类 型 检查 ， 第 3 个 参数 的 实际 特点 依赖 所 发 出 的 特定 的 控 
制 命令 ( 第 2 个 参数 )， 一 些 命令 不 用 参数 ， 一 些 用 一 个 整数 值 ， 以 及 一 些 使 用 指向 其 
他 数据 的 指针 .使 用 一 个 指针 是 传递 任意 数据 到 ioctl 调用 的 方法 ; 设备 接着 可 与 用 户 
空间 交换 任何 数量 的 数据 . 












































ioctl 调用 的 非 结构 化 特性 使 它 在 内 核 开发 者 中 失宠 ， 每 个 ioctl 命令 ， 基 本 上 ， 是 一 
个 单独 的 ， 常 常 无 文档 的 系统 调用 ， 并 且 没 有 方法 以 任何 类 型 的 全 面 的 方式 核查 这 些 调用 . 
也 难于 使 非 结构 化 的 ioctl 参数 在 所 有 系统 上 一 致 工作 ; 例如 ， 考 虑 运行 在 32- 位 模式 
的 一 个 用 户 进程 的 64- 位 系统 结果， 有 很 大 的 压力 来 实现 混杂 的 控制 操作 ， 只 通过 任 
何其 他 的 方法 ， 可 能 的 选择 包括 嵌入 命令 到 数据 流 \ 本 章 稍 后 我 们 将 讨论 这 个 方法 ) 或 者 使 
用 虚拟 文件 系统 ， 要 么 是 sysfs 要 么 是 设备 特定 的 文件 系统 . (我们 将 在 14 章 看 看 
sysfs). 但 是 ， 事 实 是 ioctl 常常 是 最 容易 的 和 最 直接 的 选择 , 对 于 真正 的 设备 操作 . 
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ioctl 驱动 方法 有 和 用 户 空 间 版 本 不 同 的 原型 : 











int Ckioctl) (struct inode *inode, struct file *filp, unsigned int cmd, 
unsigned long arg); 








inode 和 filp 指针 是 对 应 应 用 程序 传递 的 文件 描述 符 fd 的 值 ， 和 传递 给 open 方法 的 
相同 参数 ，cmd 参数 从 用 户 那里 不 改变 地 传 下 来 ， 并 且 可 选 的 参数 arg 参数 以 一 个 
unsigned long 的 形式 传递 ， 不 管 它 是 否 由 用 户 给 定 为 一 个 整数 或 一 个 指针 ， 如 果 调用 程 
序 不 传递 第 3 个 参数 ， 被 驱动 操作 收 到 的 arg 值 是 无 定义 的 ， 因 为 类 型 检查 在 这 个 额外 
参数 上 被 关闭 ， 编 译 器 不 能 警告 你 如 果 一 个 无 效 的 参数 被 传递 给 ioct1， 并 且 任何 关联 的 
背 误 将 难以 查找 . 














如 果 你 可 能 想到 的 ， 大 部 分 ioctl 实现 包括 一 个 大 的 switch 语句 来 根据 cmd 参数 ， 选 
择 正确 的 做 法 ， 不同 的 命令 有 不 同 的 数值 ， 它 们 常常 被 给 予 符号 名 来 简化 编码 ， 符 号 名 通 
过 一 个 预 处 理 定义 来 安排 ， 定制 的 驱动 常常 声明 这 样 的 符号 在 它们 的 头 文件 中 ; scull. h 
为 scull 声明 它们 用户 程 序 必 须 ， 当 然 ， 包 含 那个 头 文件 来 存 取 这 些 符号 ， 






































6.1.1. 选择 ioctl 命令 





在 为 ioctl 编写 代码 之 前 ， 你 需要 选择 对 应 命令 的 数字 . 许多 程序 员 的 第 一 个 本 能 的 反 
应 是 选择 一 组 小 数 从 0 或 1 开始， 并 且 从 此 开始 向 上 ， 但是， 有 充分 的 理由 不 这 样 做 . 
ioctl 命令 数字 应 当 在 这 个 系统 是 唯一 的 ， 为 了 阻止 向 错误 的 设备 发 出 正确 的 命令 而 引起 
的 错误 .这 样 的 不 匹配 不 会 不 可 能 发 生 ， 并 且 一 个 程序 可 能 发 现 它 自 己 试图 改变 一 个 非 串 
口 输入 系统 的 波 特 率 ， 例 如 一 个 FIFO 或 者 一 个 音频 设备 ， 如 果 这 样 的 ioctl 号 是 唯一 
的 ， 这 个 应 用 程序 得 到 一 个 EINVAL 错误 而 不 是 继续 做 不 应 当做 的 事情 . 
































为 帮助 程序 员 创 建 唯一 的 ioctl 命令 代码 ， 这 些 编码 已 被 划分 为 几 个 位 段 ，Linux 的 第 
一 个 版 本 使 用 16- 位 数 : 高 8 位 是 关联 这 个 设备 的 " 魔 “ 数 ， 低 8 位 是 一 个 顺序 号 ， 在 设 
备 内 唯一 这样 做 是 因为 Linus 是 “无 能 “的 (他 自己 的 话 ) ; 一 个 更 好 的 位 段 划 分 仅 在 后 
来 被 设想 ， 不 笠 的 是 ， 许 多 驱动 仍然 使 用 老 传 统 ， 它 们 不 得 不 : 改变 命令 编码 会 破坏 大 量 
的 二 进 制 程序 , 并 且 这 不 是 内 核 开发 者 愿意 见 到 的 . 




















根据 Linux 内 核 惯 例 来 为 你 的 驱动 选择 ioctl 号 ， 你 应 当 首 先 检查 
include/asm/ioctl.h 和 Documentation/ioctl-number. txt， 这 个 头 文件 定义 你 将 使 用 
的 位 段 : type ( 魔 数 )， 序 号 ， 传 输 方向 ， 和 参数 大 小 . ioct1-numpber. txt 文件 列举 了 在 
内 核 中 使 用 的 魔 数 , ”因此 你 将 可 选择 你 自己 的 魔 数 并 且 避 免 交 蔷 ， 这 个 文本 文件 也 列 
举 了 为 什么 应 当 使 用 惯例 的 原因 























定义 ioctl 命令 号 的 正确 方法 使 用 4 个 位 段 ， 它 们 有 下 列 的 含义 ， 这 个 列表 中 介绍 的 新 
符号 定义 在 《Linux/ioct1. h>. 


type 


20 [20] 

















但 是 ， 这 个 文件 的 维护 在 后 来 有 些 少见 了 . 
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—— 魔 数 ， 只 是 选择 一 个 数 (在 参考 了 ioctl-number. txt 之 后 ) 并 且 使 用 它 在 整个 驱动 
中 .这 个 成 员 是 8 位 宽 (_IOC_TYPEBITS). 








number 








序 (顺序 ) 号 ， 它 是 8 (IOC NRBITS) 宽 . 
direction 


数据 传送 的 方向 , 如 果 这 个 特殊 的 命令 涉及 数据 传送 .可 能 的 值 是 _IOC_NONE (没有 
数据 传输 )，  IOC READ, IOC WRITE， 和 IOC READ| IOC WRITE (数据 在 2 个 方 
问 被 传送 )， 数据 传送 是 从 应 用 程序 的 观点 来 看 待 的 ;，_IOC_READ 意思 是 从 设备 读 ， 
因此 设备 必须 写 到 用 户 空间 .注意 这 个 成 员 是 一 个 位 掩 码 ， 因 此  IOC READ 和 
_IOC_WRITE 可 使 用 一 个 逻辑 AND 操作 来 抽取 . 

















size 








涉及 到 的 用 户 数据 的 大 小 ， 这 个 成 员 的 宽度 是 依赖 体系 的 ， 但 是 党 向 是 13 或 者 
14 位 ， 你 可 为 你 的 特定 体系 在 宏 _I0C_SIZEBITS 中 找到 它 的 值 ， 你 使 用 这 个 
size 成 员 不 是 强制 的 - 内 核 不 检查 它 一 但 是 它 是 一 个 好 主意 .正确 使 用 这 个 成 
员 可 帮助 检测 用 户 空间 程序 的 错误 并 使 你 实现 向 后 兼容 ， 如 果 你 曾 需 要 改变 相关 数 
据 项 的 大 小 ， 如 果 你 需要 更 大 的 数据 结构 ， 但 是 ， 你 可 忽略 这 个 size 成 员 ， 我 们 
很 快 见 到 如 何 使 用 这 个 成 员 . 







































































头 文 件 《asm/ioct1.h>， 它 包含 在 《linux/ioct1.h> 中 ， 定 义 宏 来 帮助 建立 命令 号 ， 如 
F: IO(type,nr) (给 没有 参数 的 命令 )，_IOR(type，nre，datatype) (给 从 驱动 中 读数 据 
的 )，_IOW(type, nr, datatype) (给 写 数据 )， 和 _IOWR (type, nr, datatype) (给 双向 传送 ). 
type 和 number 成 员 作 为 参数 被 传递 ， 并 且 size 成 员 通 过 应 用 sizeof 到 datatype 
参数 而 得 到 . 














这 个 头 文件 还 定义 宏 ， 可 被 用 在 你 的 驱动 中 来 解码 这 个 号:  IOC DIRQr), 
_IOC TYPE (nr), IOC NR(nD, 4H IOC SIZE (nr). 我 们 不 进入 任何 这 些 宏 的 细节 ， 因 为 
头 文件 是 清楚 的 ， 并 且 在 本 节 稍 后 有 例子 代码 展示 . 




















这 里 是 一 些 ioctl 命令 如 何在 scull 被 定义 的 ， 特别 地 ， 这 些 命令 设置 和 获得 驱动 的 可 
配置 参数 . 


/* Use ' k' as magic number */ 
define SCULL IOC MAGIC 'k' 
/* Please use a different 8-bit number in your code */ 


define SCULL IOCRESET IO(SCULL IOC MAGIC, 0) 

/** 

* S means "Set" through a ptr, 

* T means "Tell^ directly with the argument value 
"Get 
* Q means "Query": response is on the return value 


^" 


* G means : reply by setting through a pointer 
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* X means “eXchange”: switch G and S atomically 
* H means "sHift^: switch T and Q atomically 
*/ 
&define SCULL IOCSQU 
&define SCULL IOCSQS 


ANTUM IOW(SCULL IOC MAGIC, 1, int) 
ET IOW(SCULL IOC MAGIC, 2, int) 
Hdefine SCULL IOCTQUANTUM  IO(SCULL IOC MAGIC, 3) 
Hdefine SCULL IOCTQSET IO(SCULL IOC MAGIC, 4) 

Hdefine SCULL IOCGQUANTUM  IOR(SCULL IOC MAGIC, 5, int) 
Hdefine SCULL IOCGQSET  IOR(SCULL IOC MAGIC, 6, int) 
#define SCULL IOCQQUA 

&define SCULL IOCQQSE 

Hdefine SCULL IOCXQUANTUM  IOWR(SCULL IOC MAGIC, 9, int) 
Hdefine SCULL IOCXQSET  IOWR(SCULL IOC MAGIC, 10, int) 
Hdefine SCULL IOCHQUANTUM  IO(SCULL IOC MAGIC, 11) 
Hdefine SCULL IOCHQSET IO(SCULL IOC MAGIC, 12) 


NTUM IO(SCULL IOC MAGIC, 7) 
T IO(SCULL IOC MAGIC, 8) 




















Hdefine SCULL IOC MAXNR 14 


真正 的 源 文 件 定义 几 个 额外 的 这 里 没有 出 现 的 命令 . 














我 们 选择 实现 2 种 方法 传递 整数 参数 : 通过 指针 和 通过 明确 的 值 (尽管 ， 由 于 一 个 已 存在 
的 惯例 ，ioclt 应 当 通 过 指针 交换 值 )， 类 似 地 ，2 种 方法 被 用 来 返回 一 个 整数 值 :通过 指 
针 和 通过 设置 返回 值 ， 这 个 有 效 只 要 返回 值 是 一 个 正 的 整数 ， 如 同 你 现在 所 知道 的 ， 在 从 
任何 系统 调用 返回 时 ， 一 个 正 值 被 保留 (如 同 我 们 在 read 和 write 中 见 到 的 )， 而 一 个 
负 值 被 看 作 一 个 错误 并 且 被 用 来 在 用 户 空间 设置 errno. 777 

















"exchange" JU” shift “操作 对 于 scull 没有 特别 的 用 处 ， 我 们 实现 “exchange” 来 显示 驱动 
如 何 结合 独立 的 操作 到 单个 的 原子 的 操作 ， 并 有 旦 shift“ 来 连接 tell” 和 ”query”. 有 时 需 
要 象 这 样 的 原子 的 测试 -和 -设置 操作 ， 特 别 地 ， 当 应 用 程序 需要 设置 和 释放 锁 . 





























命令 的 明确 的 序号 没有 特别 的 含义 ， 它 只 用 来 区 分 命令 ， 实 际 上 ， 你 甚至 可 使 用 相同 的 序 
号 给 一 个 读 命令 和 一 个 写 命令 ， 因 为 实际 的 ioctl 号 在 “方向 “位 是 不 同 的， 但 是 你 没有 
理由 这 样 做 ， 我 们 选择 在 任何 地 方 不 使 用 命令 的 序号 除了 声明 中 ， 因 此 我 们 不 分 配 一 个 返 
回 值 给 它 ， 这 就 是 为 什么 明确 的 号 出 现在 之 前 给 定 的 定义 中 ， 这 个 例子 展示 了 一 个 使 用 命 
令 号 的 方法 ， 但 是 你 有 自由 不 这 样 做 . 

































































除了 少数 几 个 预定 义 的 命令 (马上 就 讨论 )，ioctl 的 cmd 参数 的 值 当前 不 被 内 核 使 用 ， 
并 且 在 将 来 也 很 不 可 能 . 因此 ， 你 可 以 ， 如 果 你 觉得 懒 ， 避 免 前 面 展示 的 复杂 的 声明 并 明 
确 声 明 一 组 调整 数字 . 另 一 方面 ， 如 果 你 做 了 ， 你 不 会 从 使 用 这 些 位 段 中 获 益 ， 并 且 你 会 
遇 到 困难 如 果 你 曾 提交 你 的 代码 来 包含 在 主线 内 核 中 ， 头 文件 ^Linux/kd.h> 是 这 个 老式 
方法 的 例子 ， 使 用 16- 位 的 调整 值 来 定义 ioctl mE. 那个 源 代码 依靠 调整 数 因 为 使 用 
那个 时 候 遵 循 的 惯例 ， 不 是 由 于 懒惰 .现在 改变 它 可 能 导致 无 理由 的 不 兼容 . 















































a DU 实际 上 ， 所 有 的 当前 使 用 的 libe 实现 (包括 uClibo) 仅 将 -4095 到 -1 的 值 当 作 错 误 码 ， 不 幸 的 是 ， 能 够 返 
回 大 的 负数 而 不 是 小 的 ， 没 有 多 大 用 处 
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6.1.2. 返回 值 


ioctl 的 实现 常常 是 一 个 switch 语句 ， 基 于 命令 号 ， 但 是 当 命令 号 没有 匹配 一 个 有 效 的 
操作 时 人 缺 省 的 选择 应 当 是 什么 ? 这 个 问题 是 有 争议 的 ， 几 个 内 核 函 数 返 回 - 

ENIVAL (Invalid argument”)， 它 有 意义 是 因为 命令 参数 确实 不 是 一 个 有 效 的 . POSIX Bk 
准 ， 但 是 ， 说 如 果 一 个 不 合适 的 ioctl 命令 被 发 出 ， 那 么 -ENOTTY 应 当 被 返回 ， 这 个 错 
误 码 被 C 库 解释 为 “设备 的 不 适当 的 ioct1”， 这 常常 正 是 程序 员 需 要 听 到 的 ， 然 而 ， 它 
仍然 是 相当 普遍 的 来 返回 -EINVAL， 对 于 响应 一 个 无 效 的 ioctl 命令 . 


6. 1. 3， 预 定义 的 命令 


尽管 ioctl 系统 调用 最 常用 来 作用 于 设备 ， 内 核能 识别 几 个 命令 ,注意 这 些 命令 ， 当 用 
到 你 的 设备 时 ， 在 你 自己 的 文件 操作 被 调用 之 前 被 解码 ， 因此， 如 果 你 选择 相同 的 号 给 一 
个 你 的 ioctl 命令 ， 你 不 会 看 到 任何 的 给 那个 命令 的 请 求 ， 并 且 应 用 程序 获得 茶 些 不 期 望 
的 东西 ， 因 为 在 ioctl 号 之 间 的 冲突 . 
























































预定 义 命令 分 为 3 类 : 


。 可 对 任何 文件 发 出 的 (常规 ， 设 备 ，FIF0， 或 者 socket) 的 那些 . 
。 只 对 常规 文件 发 出 的 那些 . 
。 对 文件 系统 类 型 特殊 的 那些 . 








最 后 一 类 的 命令 由 宿主 文件 系统 的 实现 来 执行 (这 是 chattr 命令 如 何 工 作 的 )， 设备 驱动 
编写 者 只 对 第 一 类 命令 感 兴趣 ， 它 们 的 魔 数 是 “T”. 查看 其 他 类 的 工作 留 给 读者 作为 练习 ; 
ext2 ioctl 是 最 有 趣 的 函数 (并且 比 预 期 的 要 容易 理解 )， 因 为 它 实现 append-only 标志 
和 immutable 标志 . 

















下 列 ioctl 命令 是 预定 义 给 任何 文件 ， 包 括 设 备 特殊 的 文件 : 








FIOCLEX 





设置 close-on-exec 标志 (File IOctl Close on EXec). 设置 这 个 标志 使 文件 描 
述 符 被 关闭 ， 当 调用 进程 执行 一 个 新 程序 时 . 


FIONCLEX 


清除 close-no-exec 标志 (File IOctl Not CLose on EXec). 这 个 命令 恢复 普通 
文件 行为 ， 复 原 上 面 FIOCLEX 所 做 的 ， FIOASYNC 为 这 个 文件 设置 或 者 复位 异步 通 
知 ( 如 同 在 本 章 中 “异步 通知 ”一 节 中 讨论 的 )， 注意 直到 Linux 2.2. 4 版 本 的 内 核 
不 正确 地 使 用 这 个 命令 来 修改 0_SYNC 标志 .因为 两 个 动作 都 可 通过 fentl KE 
成 ， 没 有 人 真正 使 用 FIOASYNC 命令 ， 它 在 这 里 出 现 只 是 为 了 完整 性 . 





























FIOQSIZE 


这 个 命令 返回 一 个 文件 或 者 目录 的 大 小 ; 当 用 作 一 个 设备 文件 ， 但 是 ， 它 返回 一 个 
ENOTTY 错误 . 
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FIONBIO 


“File IOctl Non-Blocking 1/0” (在 “阻塞 和 非 阻塞 操作 一 节 中 描述 ) .这 个 调用 
修改 在 filp-^f flags 中 的 0 NONBLOCK 标志 . 给 这 个 系统 调用 的 第 3 个 参数 用 
作 指 示 是 否 这 个 标志 被 置 位 或 者 清除 .，( 我 们 将 在 本 章 看 到 这 个 标志 的 角色 ). 注意 
常用 的 改变 这 个 标志 的 方法 是 使 用 fcnt1 系统 调用 ， 使 用 F_SETFL 命令 . 
































列表 中 的 最 后 一 项 介绍 了 一 个 新 的 系统 调用 ，fcnt1， 它 看 来 象 ioctl. 事实 上 ，fcntl 
调用 非常 类 似 ioctl， 它 也 是 获得 一 个 命令 参数 和 一 个 额外 的 (可 选 地 ) 参数 ， 它 保持 和 
ioctl 独立 主要 是 因为 历史 原因 : 当 Unix 开发 者 面 对 控制 1/0 操作 的 问题 时 ， 他 们 决 
定 文件 和 设备 是 不 同 的 ， 那 时 ， 有 ioctl 实现 的 唯一 设备 是 ttys， 它 解释 了 为 什么 - 
ENOTTY 是 标准 的 对 不 正确 ioctl 命令 的 回答 .事情 已 经 改变 ， 但 是 fentl 保留 为 一 个 
独立 的 系统 调用 . 


6.1.4. HĦ ioctl 参数 


在 看 scull 驱动 的 ioctl 代码 之 前 ， 我 们 需要 涉及 的 另 一 点 是 如 何 使 用 这 个 额外 的 参数 . 
如 果 它 是 一 个 整数 ， 就 容易 : 它 可 以 直接 使 用 ， 如 果 它 是 一 个 指针 ， 但 是 ， 必 须 小 心 些 . 






































当 用 一 个 指针 引用 用 户 空间 ， 我 们 必须 确保 用 户 地 址 是 有 效 的， 试图 存 取 一 个 没 验证 过 的 
用 户 提供 的 指针 可 能 导致 不 正确 的 行为 ， 一 个 内 核 oops, RRR, REZEN. E 
是 驱动 的 责任 来 对 每 个 它 使 用 的 用 户 空 间 地 址 进行 正确 的 检查 ， 并 且 返 回 一 个 错误 如 果 它 
是 无 效 的 . 



































在 第 3 章 ， 我 们 看 了 copy from user 和 copy to user 消 数 ， 它 们 可 用 来 安全 地 移动 
数据 到 和 从 用 户 空间 .这 些 函 数 也 可 用 在 ioctl 方法 中 ， 但 是 ioctl 调用 常常 包含 小 数 
据 项 ， 可 通过 其 他 方法 更 有 效 地 操作 .， 开始， 地址 校 验 (不 传送 数据 ) 由 函数 access ok 
实现 ， 它 定义 在 《asm/uaccess. h>: 

















int access ok(int type, const void *addr, unsigned long size); 








第 一 个 参数 应 当 是 VERIFY READ 或 者 VERIFY_WRITE， 依 据 这 个 要 进行 的 动作 是 否 是 读 用 
户 空 间 内 存 区 或 者 写 它 .addr 参数 持 有 一 个 用 户 空间 地 址 ，size 是 一 个 字 节 量 . 例如 ， 
WR ioctl 需要 从 用 户 空间 读 一 个 整数 ，size 是 sizeof(int). 如 果 你 需要 读 和 写 给 定 
地 址 ， 使 用 VERIFY WRITE， 因 为 它 是 VERIRY READ 的 超 集 . 























不 象 大 部 分 的 内 核 函 数 ，access_ok 返回 一 个 布尔 值 : 1 是 成 功 ( 存 取 没 问题 ) 和 0 是 失 
败 ( 存 取 有 问题 )， 如果 它 返回 假 ， 了 驱动 应 当 返 回 -EFAULT 给 调用 者 . 




















关于 access ok 有 多 个 有 趣 的 东西 要 注意 .首先 ， 它 不 做 校 验 内 存 存 取 的 完整 工作 ; ER 
检查 看 这 个 内 存 引 用 是 在 这 个 进程 有 合理 权限 的 内 存 范 围 中 .特别 地 ，access_ok 确保 这 
个 地 址 不 指向 内 核 空间 内 存 ， 第 2， 大 部 分 驱动 代码 不 需要 真正 调用 access_ok， 后 面 描 
述 的 内 存 存 取 函 数 为 你 负责 这 个 ， 但是， 我 们 来 演示 它 的 使 用 ， 以 便 你 可 见 到 它 如 何 完 成 . 



































scull 源码 利用 了 ioclt 号 中 的 位 段 来 检查 参数 ， 在 switch 之 前 : 


int err = 0, tmp; 
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int retval = 0; 
/** 
* extract the type and number bitfields, and don't decode 
* wrong cmds: return ENOTTY (inappropriate ioctl) before access ok() 
*/ 
if ( IOC TYPE(emd) !- SCULL IOC MAGIC) 

return -ENOTTY; 
if ( IOC NR(cmd) > SCULL IOC MAXNR) 

return -ENOTTY; 


/** 
* the direction is a bitmask, and VERIFY WRITE catches R/W 
* transfers. Type is user-oriented, while 
* access ok is kernel-oriented, so the concept of "read" and 
* "write" is reversed 
*/ 
if ( IOC DIR(cmd) & IOC READ) 
err = laccess ok(VERIFY WRITE, (void | user *)arg, OC SIZE(cmd)); 
else if ( IOC DIR(cmd) & IOC WRITE) 
err = laccess ok(VERIFY READ, (void user *)arg, IOC SIZE(emd)) ; 
if (err) 
return -EFAULT; 


在 调用 access ok 之 后 ， 驱 动 可 安全 地 进行 真正 的 传输 ， 加 上 copy from user 和 
copy to user 函数， 程序 员 可 利用 一 组 为 被 最 多 使 用 的 数据 大 小 (1，2，4， 和 “8 字 节 ) 
而 优化 过 的 函数 .这 些 函 数 在 下 面 列表 中 描述 ， 它 们 定义 在 《asm/uaccess. h^: 











put user (datum, ptr) 
|. put user(datum, ptr) 


这 些 宏 定 义 写 datum 到 用 户 空间 ; 它们 相对 快 ， 并 且 应 当 被 调用 来 代替 

copy to user 无 论 何 时 要 传送 单个 值 时 ， 这 些 宏 已 被 编写 来 允许 传递 任何 类 型 的 
指针 到 put_user， 只 要 它 是 一 个 用 户 空 间 地 址 .传送 的 数据 大 小 依赖 prt 参数 的 
类 型 ， 并 且 在 编译 时 使 用 sizeof 和 typeof 等 编译 器 内 建 宏 确 定 ， 结 果 是 ， 如 果 
prt 是 一 个 char 指针 ， 传 送 一 个 字 节 ， 以 及 对 于 2，4， 和 可 能 的 8 FW. 















































put user 检查 来 确保 这 个 进程 能 够 号 入 给 定 的 内 存 地 址 ， 它 在 成 功 时 返回 0， 并 
且 在 错误 时 返回 -EFAULT. — put user 进行 更 少 的 检查 ( 它 不 调用 access ok), 
但 是 仍然 能 够 失败 如 果 被 指向 的 内 存 对 用 户 是 不 可 写 的 .因此 ， put_user 应 当 
只 用 在 内 存 区 已 经 用 access ok 检查 过 的 时 候 . 














作为 一 个 通用 的 规则 ， 当 你 实现 一 个 read 方法 时 ， 调 用 — put user 来 节省 几 个 
周期 ， 或 者 当 你 拷贝 几 个 项 时 ， 因 此 ， 在 第 一 次 数据 传送 之 前 调用 access ok 一 
次 ， 如 同上 面 ioctl 所 示 . 


get user(local, ptr) 
| get user(local, ptr) 
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这 些 宏 定 义 用 来 从 用 户 空 间接 收 单个 数据 ， 它 们 象 put user 和 ^ put user, 18 
是 在 相反 方向 传递 数据 ， 获 取 的 值 存储 于 本 地 变量 local; 返回 值 指 出 这 个 操作 是 
TRH. HEX, — get user 应 当 只 用 在 已 经 使 用 access ok 校 验 过 的 地 址 . 





























如 果 做 一 个 尝试 来 使 用 一 个 列 出 的 函数 来 传送 一 个 不 适合 特定 大 小 的 值 ， 结 果 常 常 是 一 个 
来 自 编译 器 的 奇怪 消息 ， 例 如 “coversion to non-scalar type requested”. 在 这 些 情况 
中 ， 必 须 使 用 copy to user 或 者 copy from user. 


6. 1. 5， 兼 容 性 和 受 限 操作 


存 取 一 个 设备 由 设备 文件 上 的 许可 权 控 制 ， 并 且 驱 动 正 常 地 不 涉及 到 许可 权 的 检查 . 但是， 
有 些 情形 ， 在 保证 给 任何 用 户 对 设备 的 读 写 许可 的 地 方 ， 一 些 控制 操作 仍然 应 当 被 拒绝 . 
例如 ， 不 是 所 有 的 磁带 驱动 器 的 用 户 都 应 当 能 够 设置 它 的 缺 省 块 大 小 ， 并 且 一 个 已 经 被 给 
予 对 一 个 磁盘 设备 读 写 权 限 的 用 户 应 当 仍 然 可 能 被 拒绝 来 格式 化 它 ， 在 这 样 的 情况 下 ， 豫 
动 必 须 进 行 额外 的 检查 来 确保 用 户 能 够 进行 被 请 求 的 操作 . 
































传统 上 unix 系统 对 超级 用 户 帐户 限制 了 特权 操作 ， 这 意味 着 特权 是 一 个 全 有 -或 -全 无 的 
东西 一 超级 用 户 可 能 任意 做 任何 事情 ， 但 是 所 有 其 他 的 用 户 被 高 度 限 制 了 .Linux 内 核 
提供 了 一 个 更 加 灵活 的 系统 ， 称 为 能 力 ， 一 个 基于 能 力 的 系统 丢弃 了 全 有 -或 全 无 模式 ， 

并 且 打 破 特权 操作 为 独立 的 子 类 ， 这 种 方式 ， 一 个 特殊 的 用 户 (或 者 是 程序 ) 可 被 授权 来 进 
行 一 个 特定 的 特权 操作 而 不 必 泄 漏 进行 其 他 的 ， 无 关 的 操作 的 能 力 ， 内 核 在 许可 权 管 理 上 
排他 地 使 用 能 力 ， 并 且 输 出 2 个 系统 调用 capget 和 capset， 来 允许 它们 被 从 用 户 空间 


Ass 
TTE 



































全 部 能 力 可 在 《linux/capability.h> 中 找到 .这些 是 对 系统 唯一 可 用 的 能 力 ; 对 于 驱动 
作者 或 者 系统 管理 员 ， 不 可 能 不 修改 内 核 源 码 而 来 定义 新 的 ， 设 备 驱 动 编写 者 可 能 感 兴 
的 这 些 能 力 的 一 个 子 集 ， 包 括 下 面 : 




















CAP DAC OVERRIDE 
这 个 能 力 来 推翻 在 文件 和 目录 上 的 存 取 的 限制 (数据 存 取 控 制 ， 或 者 DAC). 
CAP NET ADMIN 


进行 网 络 管理 任务 的 能 力 ， 包 括 那些 能 够 影响 网 络 接口 的 . 








CAP SYS MODULE 
加 载 或 去 除 内 核 模块 的 能 
CAP SYS RAWIO 
HE "raw^ 1/0 操作 的 能 力 ， 例 子 包 括 存 取 设 备 端 口 或 者 直接 和 USB 设备 通讯 


CAP SYS ADMIN 














一 个 捕获 -全 部 的 能 力 ， 提 供 对 许多 系统 管理 操作 的 存 取 . 
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CAP SYS TTY CONFIG 














进行 tty 配置 任务 的 能 


在 进行 一 个 特权 操作 之 前 ， 一 个 设备 驱动 应 当 检 查 调用 进程 有 合适 的 能 力 ; 不 这 样 做 可 能 
导致 用 户 进程 进行 非法 的 操作 ， 对 系统 的 稳定 和 安全 有 坏 的 后 果 ， 能力 检查 是 通过 
capable 函数 来 进行 的 (定义 在 《linux/sched.h>) : 





int capable(int capability); 





在 scull 例子 驱动 中 ， 任 何 用 户 被 许可 来 查询 quantum 和 quantum 集 的 大 小 .只有 特 
权 用 户 ， 但 是 ， 可 改变 这 些 值 ， 因 为 不 适当 的 值 可 能 很 坏 地 影响 系统 性 能 ， 当 需要 时 ， 
ioctl 的 scull 实现 检查 用 户 的 特权 级 别 ， 如 下 : 





if (! capable (CAP SYS ADMIN)) 
return -EPERM; 


在 这 个 任务 缺乏 一 个 更 加 特定 的 能 力 时 ，CAP_SYS_ADMIN 被 选择 来 做 这 个 测试 . 
6.1.6. ioctl 命令 的 实现 
ioctl 的 scull 实现 只 传递 设备 的 配置 参数 ， 并 日 象 下 面 这 样 容易 : 


switch (cmd) 

{ 

case SCULL IOCRESET: 
scull quantum = SCULL QUANTUM; 
scull qset - SCULL QSET; 
break; 


case SCULL IOCSQUANTUM: /* Set: arg points to the value */ 
if (! capable (CAP SYS ADMIN)) 


return -EPERM; 
retval = get user(scull quantum, (int _ user *)arg); 
break; 


case SCULL IOCTQUANTUM: /* Tell: arg is the value */ 
if (! capable (CAP SYS ADMIN)) 


return -EPERM; 
scull quantum - arg; 
break; 


case SCULL IOCGQUANTUM: /* Get: arg is pointer to result */ 
retval = put user(scull quantum, (int _ user *)arg); 
break; 
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case SCULL IOCQQUANTUM: /* Query: return it (it's positive) */ 
return scull quantum; 


case SCULL IOCXQUANTUM: /* eXchange: use arg as pointer */ 
if (! capable (CAP SYS ADMIN)) 


return -EPERM; 
tmp = scull quantum; 
retval = get user(scull quantum, (int _ user *)arg); 
if (retval == 0) 


retval = put user(tmp, (int _ user *)arg); 
break; 


case SCULL IOCHQUANTUM: /* sHift: like Tell + Query */ 
if (! capable (CAP SYS ADMIN)) 
return -EPERM; 
tmp = scull quantum; 
scull quantum - arg; 
return tmp; 


default: /* redundant, as cmd was checked against MAXNR */ 
return -ENOTTY; 
j 


return retval; 


scull 还 包含 6 个 入 口 项 作用 于 scull qset. 这 些 入 口 项 和 给 scull quantum 的 是 一 
致 的 ， 并 且 不 值得 展示 出 来 . 





从 调用 者 的 观点 看 ( 即 从 用 户 空间 )， 这 6 种 传递 和 接收 参数 的 方法 看 来 如 下 : 


int quantum; 

ioctl(fd, SCULL IOCSQUANTUM, &quantum);  /* Set by pointer */ 
ioctl(fd, SCULL IOCTQUANTUM, quantum); /* Set by value */ 
ioctl(fd, SCULL IOCGQUANTUM, &quantum);  /* Get by pointer */ 
quantum = ioctl(fd, SCULL IOCQQUANTUM) ; /* Get by return value */ 
ioctl(fd, SCULL IOCXQUANTUM, &quantum);  /* Exchange by pointer */ 


quantum = ioctl(fd, SCULL IOCHQUANTUM, quantum); /* Exchange by value */ 














当然 ， 一 个 正常 的 驱动 不 可 能 实现 这 样 一 个 调用 模式 的 混合 体 ， 我 们 这 里 这 样 做 只 是 为 
演示 做 事情 的 不 同方 式 ， 但 是 ， 正 常 地 ， 数 据 交换 将 一 致 地 进行 ， 通 过 指针 或 者 通过 值 ， 
并 且 要 避免 泥 合 这 2 种 技术 . 


6.1.7. 不 用 ioctl 的 设备 控制 
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有 时 控制 设备 最 好 是 通过 写 控 制 序列 到 设备 自身 来 实现 . 例如， 这 个 技术 用 在 控制 全 驱动 
中 ， 这 里 所 谓 的 escape 序列 被 用 来 移动 光标 ， 改 变 缺 省 的 颜色 ， 或 者 进行 其 他 的 配置 任 
F. 这 样 实现 设备 控制 的 好 处 是 用 户 可 仅仅 通过 写 数据 控制 设备 ， 不 必 使 用 (或 者 有 时 候 
写 ) 只 为 配置 设备 而 建立 的 程序 ， 当 设备 可 这 样 来 控制 ， 发 出 命令 的 程序 甚至 常常 不 需要 
运行 在 和 它 要 控制 的 设备 所 在 的 同一 个 系统 上 . 





















































列 如 ， setterm 程序 作用 于 控制 台 (或 者 其 他 终端 ) 配置， 通过 打印 escape 序列 ， 控 制程 
序 可 位 于 和 被 控制 的 设备 不 同 的 一 台 计 算 机 上 ， 因 为 一 个 简单 的 数据 流 重 定向 可 完成 这 个 
配置 工作 ， 这 是 每 次 你 运行 一 个 远程 tty 会 话 时 所 发 生 的 事情 : escape 序列 在 远 端 被 打 
印 但 是 影响 到 本 地 的 tty; 然而 ， 这 个 技术 不 局 限于 ttys. 



































通过 打印 来 控制 的 缺点 是 它 给 设备 增加 了 策略 限制 ; 例如 ， 它 仅仅 当 你 确信 在 正常 操作 时 
控制 序列 不 会 出 现在 正 被 写 入 设备 的 数据 中 ， 这 对 于 ttys 只 是 部 分 正确 的 ， 尽 管 一 个 文 
本 显示 意味 着 只 显示 ASCI 字符 ， 有 时 控制 学 符 可 潜入 正 被 写 入 的 数据 中 ， 并 且 可 能 ， 
因此 ， 影 响 控制 台 的 配置 . 例如， 这 可 能 发 生 在 你 显示 一 个 二 进 制 文件 到 屏幕 时 ; 产生 的 
乱码 可 能 包含 任何 东西 ， 并 且 最 后 你 常常 在 你 的 控制 合 上 出 现 错误 的 字体 . 



























































通过 写 来 控制 是 当然 的 使 用 方法 了 ， 对 于 不 用 传送 数据 而 上 只 是 响应 命令 的 设备 ， 例 如 遥控 


设备 . 


例如 ， 被 你 们 作者 当中 的 一 个 编写 来 好 玩 的 驱动 ， 移 动 一 个 2 轴 上 的 摄像 机 .在 这 个 驱 
动 里 ， 这 个 “设备 ”是 一 对 老式 步 进 电 机 ， 它 们 不 能 真正 读 或 写 ， 给 一 个 步 进 电机 ”发送 数 
据 流 “的 概念 没有 任何 意义 ， 在 这 个 情况 下 ， 驱 动 解释 正 被 写 入 的 数据 作为 ASCI 命令 并 
且 转 换 这 个 请 求 为 脉冲 序列 ， 来 操纵 步 进 电 机 .这 个 概念 类 似 于 ， 有 些 ， 你 发 给 猫 的 AT 
命令 来 建 并 通讯 ， 主 要 的 不 同 是 和 猫 通 讯 的 串口 必须 也 传送 真正 的 数据 ， 直 接 设 备 控制 的 
好 处 是 你 可 以 使 用 cat 来 移动 摄像 机 ， 而 不 必 写 和 编译 特殊 的 代码 来 发 出 ioctl 调用 . 





























当 编 写 面向 命令 的 驱动 ， 没 有 理由 实现 ioctl 命令 ,一 个 解释 器 中 的 额外 命令 更 容易 实 
现 并 使 用 . 























有 了 时， 然而， 你 可 能 选择 使 用 其 他 的 方法 :不 必 转 变 write 方法 为 一 个 解释 器 和 避免 
ioct1， 你 可 能 选择 完全 避免 写 并 且 专门 使 用 ioctl 命令 ， 而 实现 驱动 为 使 用 一 个 特殊 的 
命令 行 工 具 来 发 送 这 些 命令 到 了 驱动， 这 个 方法 转移 复杂 性 从 内 核 空间 到 用 户 空间 ， 这 里 可 
能 更 易 处 理 ， 并 且 帮 助 保持 驱动 小 ， 而 拒绝 使 用 简单 的 cat 或 者 echo 命令 


6.2. 阻塞 I/O 


回顾 第 3 章 ， 我 们 看 到 如 何 实现 read 和 write 方法 .在 此 ， 但 是 ， 我 们 跳 过 了 一 个 重 
要 的 问题 :一 个 驱动 当 它 无 法 立刻 满足 请 求 应 当 如 何 响应 ? 一 个 对 read 的 调用 可 能 当 没 
有 数据 时 到 来 ， 而 以 后 会 期 待 更 多 的 数据 ， 或 者 一 个 进程 可 能 试图 号 ， 但 是 你 的 设备 没有 
准备 好 接受 数据 ， 因 为 你 的 输出 缓冲 满 了 .调用 进程 往往 不 关心 这 种 问题 ， 程 序 员 只 希望 
调用 read 或 write 并 且 使 调用 返回 ， 在 必要 的 工作 已 完成 后 ， 这样， 在 这 样 的 情形 中 ， 
你 的 驱动 应 当 ( 缺 省 地 ) 阻塞 进程 ， 使 它 进 入 睡眠 直到 请 求 可 继续 . 
























































本 节 展 示 如 何 使 一 个 进程 睡眠 并 且 之 后 再 次 唤醒 它 ， 如 第 ， 但 是 ， 我 们 必须 首先 解释 几 个 
概念 . 
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6. 2. 1， 睡 眠 的 介绍 


对 于 一 个 进程 “睡眠 “意味 着 什么 ?” 当 一 个 进程 被 置 为 睡眠 ， 它 被 标识 为 处 于 一 个 特殊 的 状 
态 并 且 从 调度 器 的 运行 队列 中 去 除 . 直到 发 生 某 些 事 情 改变 了 那个 状态 ， 这 个 进程 将 不 被 
在 任何 CPU 上 调度 ， 并 且 ， 因 此 ， 将 不 会 运行 ， 一 个 睡 着 的 进程 已 被 搁置 到 系统 的 一 边 ， 
等 待 以 后 发 生 事件 . 














对 于 一 个 Linux 驱动 使 一 个 进程 睡眠 是 一 个 容易 做 的 事情 .但 是 ， 有 几 个 规则 必须 记 住 
以 安全 的 方式 编码 睡眠 . 











这 些 规则 的 第 一 个 是 : 当 你 运行 在 原子 上 下 文 时 不 能 睡眠 .我 们 在 第 5 章 介绍 过 原子 操 
fg; 一 个 原子 上 下 文 只 是 一 个 状态 ， 这 里 多 个 步 又 必须 在 没有 任何 类 型 的 并 发 存 取 的 情况 
下 进行 ， 这 意味 着 ， 对 于 睡眠 ， 是 你 的 驱动 在 持 有 一 个 自 旋 锁 ，seqlock， 或 者 RCU 锁 时 
不 能 睡眠 ， 如 果 你 已 关闭 中 断 你 也 不 能 睡眠 ， 在 持 有 一 个 旗 标 时 睡眠 是 合法 的 ， 但 是 你 应 
当 仔 细 查 看 这 样 做 的 任何 代码 ， 如 果 代码 在 持 有 一 个 旗 标 时 睡眠 ， 任 何其 他 的 等 得 这 个 底 
标的 线程 也 睡眠 .因此 发 生 在 持 有 旗 标 时 的 任何 睡眠 应 当 短 暂 ， 并 且 你 应 当 说 服 自 己 ， 由 
于 持 有 这 个 旗 标 ， 你 不 能 阻塞 这 个 将 最 终 唤 醒 你 的 进程 . 


















































男 一 件 要 记 住 的 事情 是 ， 当 你 醒 来 ， 你 从 不 知道 你 的 进程 离开 CPU 多 长 时 间或 者 同时 已 
经 发 生 了 什么 改变 .你 也 常常 不 知道 是 否 男 一 个 进程 已 经 睡眠 等 待 同一 个 事件 ; 那个 进程 
可 能 在 你 之 前 醒 来 并 且 获 取 了 你 在 等 等 的 资源 ,结果 是 你 不 能 关于 你 醒 后 的 系统 状态 做 任 
何 的 假设 ， 并 且 你 必须 检查 来 确保 你 在 等 待 的 条 件 是 ， 确 实 ， 真 的 . 





















































一 个 另外 的 相关 的 点 ， 当 然 ， 是 你 的 进程 不 能 睡眠 除非 确信 其 他 人 ， 在 某 处 的 ， 将 唤醒 它 . 
做 唤醒 工作 的 代码 必须 也 能 够 找到 你 的 进程 来 做 它 的 工作 ， 确 保 一 个 唤醒 发 生 ， 是 深入 考 
虑 你 的 代码 和 对 于 每 次 睡眠 ， 确 切 知道 什么 系列 的 事件 将 结束 那 次 睡眠 ， 使 你 的 进程 可 能 
被 找到 ， 真 正 地 ， 通 过 一 个 称 为 等 待 队列 的 数据 结构 实现 的 ， 一 个 等 待 队列 就 是 它 听 起 来 
的 样子 :一 个 进程 列表 ， 都 等 待 一 个 特定 的 事件 . 


















































在 Linux 中 ， 一 个 等 待 队列 由 一 个 “等 待 队 列 头 “ 来 管理 ， 一 个 wait queue head t 类 型 
的 结构 ， 定 义 在 《linux/wait.h> 中 ， 一 个 等 待 队列 头 可 被 定义 和 初始 化 ， 使 用 : 























DECLARE WAIT QUEUE HEAD (name); 





或 者 动态 地 ， 如 下 : 


wait queue head t my queue; 





init waitqueue head(&my queue); 








我 们 将 很 快 返回 到 等 待 队 列 结构 ， 但 是 我 们 知道 了 足够 多 的 来 首先 看 看 睡眠 和 唤醒 . 
6. 2. 2， 简 单 睡眠 


当 一 个 进程 睡眠 ， 它 这 样 做 以 期 望 某 些 条 件 在 以 后 会 成 真 ， 如 我 们 之 前 注意 到 的 ， 任 何 睡 
眠 的 进程 必须 在 它 再 次 醒 来 时 检查 来 确保 它 在 等 待 的 条 件 真 正 为 真 ，Linux 内 核 中 睡眠 的 
最 简单 方式 是 一 个 宏 定义 ， 称 为 wait event (有 几 个 变 体 ) ; 它 结合 了 处 理 睡 眠 的 细节 和 
进程 在 等 待 的 条 件 的 检查 .wait_event 的 形式 是 : 
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wait event(queue, condition) 
wait event interruptible(queue, condition) 
wait event timeout(queue, condition, timeout) 
wait event interruptible timeout(queue, condition, timeout) 





在 所 有 上 面 的 形式 中 ，queue 是 要 用 的 等 待 队列 头 ， 注 意 它 是 “通过 值 “传递 的 ， 条 件 是 一 
个 被 这 个 宏 在 睡眠 前 后 所 求 值 的 任意 的 布尔 表达 式 ; 直到 条 件 求 值 为 真 值 ， 进 程 继续 睡眠 
注意 条 件 可 能 被 任意 次 地 求 值 ， 因 此 它 不 应 当 有 任何 边界 效应 . 


























如 果 你 使 用 wait_event， 你 的 进程 被 置 为 不 可 中 断 地 睡眠 ， 如 同 我 们 之 前 已 经 提 到 的 ， 
它 常常 不 是 你 所 要 的 .首选 的 选择 是 wait_event_interruptiple， 它 可 能 被 信号 中 断 . 
这 个 版 本 返回 一 个 你 应 当 检查 的 整数 值 ; 一 个 非 零 值 意味 着 你 的 睡眠 被 某 些 信号 打 断 ， 并 
且 你 的 驱动 可 能 应 当 返 回 -ERESTARTSYS. 最 后 的 版 本 wait event timeout 和 
wait event interruptible timeout) 等待 一 段 有 限 的 时 间 ; 在 这 个 时 间 期 间 CE I n c de 
达 的 ， 我 们 将 在 第 7 章 讨论 ) 超 时 后 ， 这 个 宏 返 回 一 个 0 值 而 不 管 条 件 是 如 何 求 值 的 . 





























图 片 的 另 一 半 ， 当 然 ， 是 唤醒 ， 一些 其 他 的 执行 线程 (一 个 不 同 的 进程 ， 或 者 一 个 中 断 处 
理 ， 也 许 ) 必须 为 你 进行 唤醒 ， 因 为 你 的 进程 ， 当 然 ， 是 在 睡眠 基本 的 唤醒 睡眠 进程 的 
函数 称 为 wake_up， 它 有 几 个 形式 (但 是 我 们 现在 只 看 其 中 2 个 ) : 























void wake up(wait queue head t *queue); 





void wake up interruptible(wait queue head t *queue); 








wake up 唤醒 所 有 的 在 给 定 队列 上 等 竺 的 进程 (尽管 这 个 情形 比 那 个 要 复杂 一 些 ， 如 同 我 
们 之 后 将 见 到 的 )， 其 他 的 形式 (wake_up_interruptible) 限制 它 自己 到 处 理 一 个 可 中 断 的 
睡眠 通常， 这 2 个 是 不 用 区 分 的 (如 果 你 使 用 可 中 断 的 睡眠 ) ; 实际 上 ， 人 惯例 是 使 用 
wake up 如 果 你 在 使 用 wait event , wake up interruptible 如 果 你 在 使 用 

wait event interruptible. 
































我 们 现在 知道 足够 多 来 看 一 个 简单 的 睡眠 和 唤醒 的 例子 .在 这 个 例子 代码 中 ， 你 可 找到 一 
个 称 为 sleepy 的 模块 ， 它 实现 一 个 有 简单 行为 的 设备 :任何 试图 从 这 个 设备 读 取 的 进程 
都 被 置 为 睡眠 ， 无 论 何 时 一 个 进程 写 这 个 设备 ， 所 有 的 睡眠 进程 被 唤醒 ， 这 个 行为 由 下 面 
的 read 和 write 方法 实现 : 

















static DECLARE WAIT QUEUE HEAD (wq) ; 
static int flag = 0; 





ssize t sleepy read (struct file *filp, char user *buf, size t count, loff t 
*pos) 
[ 

printk(KERN DEBUG "process %i (9s) going to sleepW, 

current-^pid, current-?comm); 

wait event interruptible(wq, flag !- 0); 

flag = 0; 

printk(KERN DEBUG "awoken %i (%s)\n”, current-?pid, current-?comm); 

return 0; /* EOF */ 
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ssize t sleepy write (struct file *filp, const char user *buf, size t count, 
loff t *pos) 
{ 

printk (KERN_DEBUG "process %i (%s) awakening the readers... m^, 

current->pid, current-?comm); 

flag = 1; 

wake up interruptible (&wq) ; 

return count; /* succeed, to avoid retrial */ 


j 





注意 这 个 例子 里 flag 变量 的 使 用 . 因为 wait event interruptible 检查 一 个 必须 变 为 
真 的 条 件 ， 我 们 使 用 flag 来 创建 那个 条 件 . 











有 趣 的 是 考虑 当 sleepy write 被 调用 时 如 果 有 2 个 进程 在 等 待 会 发 生 什 么 ， 因 为 
sleepy read $H flag 为 0 一 旦 它 醒 来 ， 你 可 能 认为 醒 来 的 第 2 个 进程 会 立刻 回 到 睡 
眠 ， 在 一 个 单 处 理 嚣 系统， 这 几乎 一 直 是 发 生 的 事情 .但 是 重要 的 是 要 理解 为 什么 你 不 能 
依赖 这 个 行为 ， wake_up_interruptible 调用 将 使 2 个 睡眠 进程 醒 来 .完全 可 能 它们 都 
注意 到 flag 是 非 零 ， 在 另 一 个 有 机 会 重 置 它 之 前 . 对 于 这 个 小 模块 ， 这 个 竞争 条 件 是 不 
重要 的 .在 一 个 真实 的 驱动 中 ， 这 种 莞 争 可 能 导致 少见 的 难于 查找 的 骨 演 .如 果 正 确 的 操 
作 要 求 上 只 能 有 一 个 进程 看 到 这 个 非 零 值 ， 它 将 必须 以 原子 的 方式 被 测试 .我 们 将 见 到 一 个 
真正 的 驱动 如 何 处 理 这 样 的 情况 .但 首先 我 们 必须 开始 男 一 个 主题 . 


6. 2. 3， 阻 塞 和 非 阻塞 操作 


在 我 们 看 全 功能 的 read 和 write 方法 的 实现 之 前 ， 我 们 触及 的 最 后 一 点 是 决定 何 时 使 
进程 睡眠 .有 时 实现 正确 的 unix 语义 要 求 一 个 操作 不 阻塞 ， 即 便 它 不 能 完全 地 进行 下 去 . 











































































































有 时 还 有 调用 进程 通知 你 他 不 想 阻 塞 ， 不 管 它 的 I/O 是 否 继续 ， 明 确 的 非 阻塞 I/O 由 

filp->f flags 中 的 0 NONBLOCK 标志 来 指示 .这 个 标志 定义 于 《1linux/fcnt1.h>， 被 

《linux/fs.h> 自 动 包含 .这 个 标志 得 名 自 “ 打 开 - 非 阻塞 ”， 因 为 它 可 在 打开 时 指定 (并 且 起 
初 只 能 在 那里 指定 )， 如 果 你 浏览 源码 ， 你 会 发 现 一 些 对 一 个 0 NDELAY 标志 的 引用 ; 这 
是 一 个 替代 0 NONBLOCK 的 名 子 ， 为 兼容 System V 代码 而 被 接受 的 ， 这 个 标志 缺 省 地 被 
清除 ， 因 为 一 个 等 待 数据 的 进程 的 正常 行为 仅仅 是 睡眠 ， 在 一 个 阻塞 操作 的 情况 下 ， 这 是 
缺 省 地 ， 下 列 的 行为 应 当 实 现 来 符合 标准 语法 : 












































。 如 果 一 个 进程 调用 read 但 是 没有 数据 可 用 (尚未 )， 这 个 进程 必须 阻塞 ， 这 个 进程 
在 有 数据 达到 时 被 立刻 唤醒 ， 并 且 那 个 数据 被 返回 给 调用 者 ， 即 便 小 于 在 给 方法 的 
count 参数 中 请 求 的 数量 . 

。 如 果 一 个 进程 调用 write 并 且 在 缓冲 中 没有 空间 ， 这 个 进程 必须 阻塞 ， 并 且 它 必 
须 在 一 个 与 用 作 read 的 不 同 的 等 待 队列 中 ， 当 一 些 数 据 被 写 入 硬件 设备 ， 并 且 在 
输出 缓冲 中 的 空间 变 空 亲 ， 这 个 进程 被 唤醒 并 且 写 调用 成 功 ， 尽 管 数据 可 能 只 被 部 
分 写 入 如 果 在 缓冲 只 没有 空间 给 被 请 求 的 count 字 节 . 





























这 2 句 都 假定 有 输入 和 输出 缓冲 ;实际 上 ， 儿 乎 每 个 设备 驱动 都 有 .要 求 有 输入 绥 冲 是 
为 了 避免 丢失 到 达 的 数据 ， 当 无 人 在 读 时 . 相反 ， 数 据 在 写 时 不 能 丢失 ， 因 为 如 果 系 统 调 
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于 从 硬件 挤 出 更 多 的 性 能 . 








在 驱动 中 实现 输出 缓冲 所 获得 的 性 能 来 自 减少 了 上 下 文 切换 和 用 户 级 /内 核 级 切换 的 次 数 . 
没有 一 个 输出 缓冲 (假定 一 个 慢 速 设备 ) ， 每 次 系统 调用 接收 这 样 一 个 或 几 个 字符 ， 并 且 当 
一 个 进程 在 write 中 睡眠 ， 另 一 个 进程 运行 ( 那 是 一 次 上 下 文 切换 )， 当 第 一 个 进程 被 唤 
醒 ， 它 恢复 ( 男 一 次 上 下 文 切 换 )， 写 返回 (内 核 / 用 户 转 换 )， 并 且 这 个 进程 重新 发 出 系统 
调用 来 写 入 更 多 的 数据 (用 户 / 内 核 转 换 ) ; 这 个 调用 阻塞 并 且 循环 继续 ， 增 加 一 个 输出 组 
冲 可 允许 驱动 在 每 个 写 调用 中 接收 大 的 数据 块 ， 性 能 上 有 相应 的 提高 ， 如 果 这 个 缓冲 足够 
大 ， 写 调用 在 第 一 次 尝试 就 成 功 一 被 缓冲 的 数据 之 后 将 被 推 到 设备 一 不 必 控 制 需要 返 
回 用 户 空 间 来 第 二 次 或 者 第 三 次 写 调用 .选择 一 个 合适 的 值 给 输出 缓冲 显然 是 设备 特定 的 . 


























我 们 不 使 用 一 个 输入 缓冲 在 scull 中 ， 因 为 数据 当 发 出 read 时 已 经 可 用 .类似 的 ， 不 用 
输出 缓冲 ， 因 为 数据 被 简单 地 拷贝 到 和 设备 关联 的 内 存 区 ， 本 质 上 ， 这 个 设备 是 一 个 缓冲 ， 
因此 额外 缓冲 的 实现 可 能 是 多 余 的 ， 我 们 将 在 第 10 章 见 到 缓冲 的 使 用 . 











如 果 指定 0 NONBLOCK, read 和 write 的 行为 是 不 同 的 .在 这 个 情况 下 ， 这 个 调用 简单 
地 返回 -EAGAIN(( try it agin”) 如 果 一 个 进程 当 没有 数据 可 用 时 调用 read ， 或 者 如 果 
当 缓 冲 中 没有 空间 时 它 调 用 write . 





如 你 可 能 期 望 的 ， 非 阻塞 操作 立刻 返回 ， 人 允许 这 个 应 用 程序 轮 询 数据 ， 应 用 程序 当 使 用 
stdio 函数 处 理 非 阻塞 文件 中 ， 必 须 小 心 ， 因 为 它们 容易 搞 错 一 个 的 非 阻 塞 返回 为 EOF. 
它们 始终 必须 检查 errno. 














自然 地 ，0_NONBLOCK 也 在 open 方法 中 有 意义 ， 这 个 发 生 在 当 这 个 调用 真正 阻塞 长 时 间 
时 ; 例如 ， 当 打开 (为 读 存 取 ) 一 个 没有 写 者 的 ( 尚 无 )FIF0， 或 者 存 取 一 个 磁盘 文件 使 用 
一 个 悬挂 锁 ， 和 常常 地 ， 打 开 一 个 设备 或 者 成 功 或 者 失败 ， 没 有 必要 等 待 外 部 的 事件 ， 有 时 ， 
但 是 ， 打 开 这 个 设备 需要 一 个 长 的 初始 化 ， 并 且 你 可 能 选择 在 你 的 open 方法 中 支持 
0_NONBLOCK ， 通 过 立刻 返回 -EAGAIN, 如 果 这 个 标志 被 设置 . 在 开始 这 个 设备 的 初始 化 进 
程 之 后 ， 这 个 驱动 可 能 还 实现 一 个 阻塞 open 来 支持 存 取 策 略 ， 通 过 类 似 于 文件 锁 的 方式 . 
我 们 将 见 到 这 样 一 个 实现 在 “阻塞 open 作为 对 EBUSY 的 替代 ”一 节 ， 在 本 章 后 面 . 


























一 些 驱 动 可 能 还 实现 特别 的 语义 给 0 NONBLOCK; 例如 ， 一 个 磁带 设备 的 open 常常 阻塞 
直到 插入 一 个 磁带 ， 如 果 这 个 磁带 驱动 器 使 用 0_NONBLOCK 打开 ， 这 个 open 立刻 成 功 ， 
不 管 是 否 介 质 在 或 不 在 . 








4 





只 有 read, write, 4I open 文件 操作 受到 非 阻塞 标志 影响 . 
6. 2. 4， 一 个 阻塞 I/O 的 例子 


最 后 ， 我 们 看 一 个 实现 了 阻塞 1/0 的 真实 驱动 方法 的 例子 .这 个 例子 来 自 scullpipe Jk 
动 ; 它 是 scull 的 一 个 特殊 形式 ， 实 现 了 一 个 象 管道 的 设备 . 











在 驱动 中 ， 一 个 阻塞 在 读 调 用 上 的 进程 被 唤醒 ， 当 数据 到 达 时 ;常常 地 硬件 发 出 一 个 中 断 
来 指示 这 样 一 个 事件 ， 并 且 驱 动 唤醒 等 等 的 进程 作为 处 理 这 个 中 断 的 一 部 分 .scullpipe 
驱动 不 同 ， 以 至 于 它 可 运行 而 不 需要 任何 特殊 的 硬件 或 者 一 个 中 断 处 理 .， 我 们 选择 来 使 用 
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另 一 个 进程 来 产生 数据 并 唤醒 读 进程 ;类似 地 ， 读 进程 被 用 来 唤醒 正在 等 待 缓冲 空间 可 用 
的 写 者 进程 . 








这 个 设备 驱动 使 用 一 个 设备 结构 ， 它 包含 2 个 等 待 队列 和 一 个 缓冲 .缓冲 大 小 是 以 常用 
的 方法 可 配置 的 (在 编译 时 间 ， 加 载 时 间 ， 或 者 运行 时 间 ). 





struct scull pipe 

{ 
wait_queue head t inq, outq; /* read and write queues */ 
char *buffer, *end; /* begin of buf, end of buf */ 
int buffersize; /* used in pointer arithmetic */ 
char *rp, *wp; /* where to read, where to write */ 
int nreaders, nwriters; /* number of openings for r/w */ 
struct fasync struct *async queue; /* asynchronous readers */ 
struct semaphore sem; /* mutual exclusion semaphore */ 
struct cdev cdev; /* Char device structure */ 





j; 





读 实现 既 管 理 阻 塞 也 管理 非 阻 塞 输 入 ， 看 来 如 此 : 

















static ssize t scull p read (struct file *filp, char | user *buf, size t count, 
loff t *f pos) 
{ 
struct scull pipe *dev = filp->private data.; 
if (down interruptible (&dev->sem)) 
return -ERESTARTSYS; 


while (dev-^rp == dev-^wp) 

[ /* nothing to read */ 
up(&dev-^sem); /* release the lock */ 
if (filp->f flags & 0 NONBLOCK) 


return —-EAGAIN; 

PDEBUG (”\%s\” reading: going to sleep\n”, current-^comm); 

if (wait event interruptible(dev-^ing, (dev-^rp != dev-5wp))) 
return -ERESTARTSYS; /* signal: tell the fs layer to 

handle it */ /* otherwise loop, but first reacquire the lock */ 

if (down interruptible (&dev-5sem)) 

return -ERESTARTSYS; 
j 


/* ok, data is there, return something */ 


if (dev-^wp > dev-^rp) 
count = min(count, (size t) (dev->wp - dev-^rp)); 

else /* the write pointer has wrapped, return data up to dev->end */ 
count = min(count, (size t) (dev->end - dev—rp)); 

if (copy to user(buf, dev-^rp, count)) 
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up (&dev-^sem); 
return -EFAULT; 
} 
dev-?rp += count; 
if (dev—rp == dev-^end) 


dev-?rp = dev-^buffer; /* wrapped */ 
up (&dev-^sem); 


/* finally, awake any writers and return */ 

wake up interruptible(&dev-?outq) ; 

PDEBUG ("V"*$sXV" did read %li bytes\n”, current->comm, (long)count); 
return count; 


j 








如 同 你 可 见 的 ， 我 们 在 代码 中 留 有 一 些 PDEBUG 语句 ， 当 你 编译 这 个 驱动 ， 你 可 使 能 消息 
机 制 来 易于 跟随 不 同 进程 间 的 交互 . 





让 我 们 仔细 看 看 scull_p_read 如 何 处 理 对 数据 的 等 待 ， 这 个 while 循环 在 持 有 设备 旗 
标 下 测试 这 个 缓冲 .如 果 有 数据 在 那里 ， 我 们 知道 我 们 可 立刻 返回 给 用 户 ， 不 必 有 睡眠 ， 
此 整个 循环 被 跳 过 .， 相反， 如果 这 个 缓冲 是 空 的 ， 我 们 必须 睡眠 .但 是 在 我 们 可 做 这 个 之 
前 ， 我 们 必须 丢掉 设备 旋 标 ; 如 果 我 们 要 持 有 它 而 睡眠 ， 就 不 会 有 写 者 有 机 会 唤醒 我 们 . 
一 旦 这 个 确保 被 丢 反 ， 我 们 做 一 个 快速 检查 来 看 是 否 用 户 已 请 求 非 阻 塞 I/0， 并 且 如 果 是 
这 样 就 返回 ， 否则， 是 时 间 调 用 wait event interruptible. 


















































一 旦 我 们 过 了 这 个 调用 ， 某 些 东 东 已 经 唤醒 了 我 们 ， 但 是 我 们 不 知道 是 什么 ， 一 个 可 能 是 
进程 接收 到 了 一 个 信号 ， 包含 wait event interruptible 调用 的 这 个 if 语句 检查 这 种 
情况 ， 这 个 语句 保证 了 正确 的 和 被 期 望 的 对 信和 号 的 反应 ， 它 可 能 负责 唤醒 这 个 进程 (因为 
我 们 处 于 一 个 可 中 断 的 睡眠 )， 如 果 一 个 信号 已 经 到 达 并 且 它 没有 被 这 个 进程 阻塞 ， 正确 
的 做 法 是 让 内 核 的 上 层 处 理 这 个 事件 ， 到 此 ， 这 个 驱动 返回 -ERESTARTSYS 到 调用 者 ; 这 
个 值 被 虚拟 文件 系统 (VFS) 在 内 部 使 用 ， 它 或 者 重启 系统 调用 或 者 返回 -EINTR 给 用 户 空 
则 .我们 使 用 相同 类 型 的 检查 来 处 理 信 号 ， 给 每 个 读 和 写实 现 . 







































































但 是 ， 即 便 没 有 一 个 信和 号， 我们 还 是 不 确切 知道 有 数据 在 那里 为 获取 ， 其 他 人 也 可 能 已 经 
全 等 竺 数据， 并 且 它 们 可 能 慑 得 竞争 并 且 首 先 得 到 数据 ， 因 此 我 们 必须 再 次 获取 设备 旗 标 ; 
只 有 这 时 我 们 才 可 以 测试 读 缓 冲 (在 while 循环 中 ) 并 且 真 正 知道 我 们 可 以 返回 缓冲 中 的 
数据 给 用 户 ， 全 部 这 个 代码 的 最 终结 果 是 ， 当 我 们 从 while 循环 中 退出 时 ， 我 们 知道 旗 
标 被 获得 并 且 缓 冲 中 有 数据 我 们 可 以 用 . 




















仅仅 为 了 完整 ， 我 们 要 注意 ，scull_p_read 可 以 在 男 一 个 地 方 睡 卢 ， 在 我 们 获得 设备 旗 
标 之 后 : 对 copy to user 的 调用 . 如果 scull 当 在 内 核 和 用 户 空间 之 间 找 贝 数据 时 睡 
卢 ， 它 在 持 有 设备 旗 标 中 睡眠 ， 在 这 种 情况 下 持 有 旗 标 是 合理 的 因为 它 不 能 死 锁 系 统 ( 我 
们 知道 内 核 将 进行 拷贝 到 用 户 空间 并 且 在 不 加 锁 进 程 中 的 同一 个 旗 标 下 唤醒 我 们 )， 并 且 
因为 重要 的 是 设备 内 存 数 组 在 驱动 睡眠 时 不 改变 . 



































6. 2. 5， 高 级 睡眠 
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许多 驱动 能 够 满足 它们 的 睡眠 要 求 ， 使 用 至 今 我 们 已 涉及 到 的 函数 .但 是 ， 有 时 需要 深入 
理解 Linux 等 待 队 列 机 制 如 何 工作 .复杂 的 加 锁 或 者 性 能 需要 可 强制 一 个 驱动 来 使 用 低 
层 函数 来 影响 一 个 睡眠 .在 本 节 ， 我 们 在 低层 看 而 理解 在 一 个 进程 睡眠 时 发 生 了 什么 . 


6.2.5.1. 一 个 进程 如 何 睡眠 





















































如 果 我 们 深入 《linux/wait. h>， 你 见 到 在 wait queue head t 类 型 后 面 的 数据 结构 是 非 
常 简单 的 ， 它 包含 一 个 自 旋 锁 和 一 个 链表 ， 这 个 链表 是 一 个 等 待 队 列 入 口 ， 它 被 声明 做 
wait queue t. 这 个 结构 包含 关于 睡眠 进程 的 信息 和 它 想 怎样 被 唤醒 . 









































使 一 个 进程 睡眠 的 第 一 步 常常 是 分 配 和 初始 化 一 个 wait queue t 结构 ， 随 后 将 其 添加 到 
正确 的 等 竺 队列. 当 所 有 东西 都 就 位 了 ， 负 责 唤 醒 工 作 的 人 就 可 以 找到 正确 的 进程 . 
































下 一 步 是 设置 进程 的 状态 来 标志 它 为 睡眠 .在 《linux/sched.h> 中 定义 有 几 个 任务 状态 . 
TASK RUNNING 意思 是 进程 能 够 运行 ， 尽 管 不 必 在 任何 特定 的 时 刻 在 处 理 器 上 运行 有 2 
个 状态 指示 一 个 进程 是 在 睡眠 : TASK_INTERRUPTIBLE 和 TASK UNTINTERRUPTIBLE; 当然 ， 
它们 对 应 2 类 的 睡眠 .其 他 的 状态 正常 地 和 驱动 编写 者 无 关 . 





























在 2.6 内 核 ， 对 于 驱动 代码 通常 不 需要 直接 操作 进程 状态 但是， 如 果 你 需要 这 样 做 ， 
使 用 的 代码 是 : 





void set current state(int new state); 





在 老 的 代码 中 ， 你 常常 见 到 如 此 的 东西 : 








current-?state = TASK INTERRUPTIBLE; 





但 是 象 这 样 直接 改变 current 是 不 鼓励 的 ;， 当 数据 结构 改变 时 这 样 的 代码 会 轻易 地 失效 . 
但 是 ， 上 面 的 代码 确实 展示 了 自己 改变 一 个 进程 的 当前 状态 不 能 使 其 睡眠 ， 通 过 改变 
current 状态 ， 你 已 改变 了 调度 器 对 待 进程 的 方式 ， 但 是 你 还 未 让 出 处 理 器 . 















































放弃 处 理 器 是 最 后 一 步 ， 但 是 要 首先 做 一 件 事 : 你 必须 先 检查 你 在 睡眠 的 条 件 . 做 这 个 检 
查 失 败 会 引入 一 个 竞争 条 件 ; 如 果 在 你 忙于 上 面 的 这 个 过 程 并 且 有 其 他 的 线程 刚刚 试图 唤 
醒 你 ， 如 果 这 个 条 件 变 为 真 会 发 生 什么 ?你 可 能 错过 唤醒 并 且 睡 眠 超过 你 预想 的 时 间 ， 因 
此 ， 在 睡眠 的 代码 下 面 ， 典 型 地 你 会 见 到 下 面 的 代码 : 

















if (!condition) 
schedule () ; 


通过 在 设置 了 进程 状态 后 检查 我 们 的 条 件 ， 我 们 涵盖 了 所 有 的 可 能 的 事件 进展 ， 如 果 我 们 
企 等 待 的 条 件 已 经 在 设置 进程 状态 之 前 到 来 ， 我 们 在 这 个 检查 中 注意 到 并 且 不 真正 地 睡眠 . 
如 果 之 后 发 生 了 唤醒 ， 进 程 被 置 为 可 运行 的 不 管 是 否 我 们 已 真正 进入 睡眠 ， 























调用 schedule ， 当 然 ， 是 引用 调度 器 和 让 出 CPU 的 方式 ， 无论 何 时 你 调用 这 个 函数 ， 
你 是 在 告诉 内 核 来 考虑 应 当 运 行 哪个 进程 并 且 转 换 控制 到 那个 进程 ， 如 果 必 要 .因此 你 从 
不 知道 在 schedule 返回 到 你 的 代码 会 是 多 长 时 间 . 
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在 if 测试 和 可 能 的 调用 schedule (并 从 其 返回 ) 之 后 ， 有 些 清理 工作 要 做 ， 因 为 这 个 代 
码 不 再 想 睡 眠 ， 它 必须 保证 任务 状态 被 重 置 为 TASK_RUNNING， 如 果 代 码 只 是 从 schedule 
返回 ， 这 一 步 是 不 必要 的 ; 那个 函数 不 会 返回 直到 进程 处 于 可 运行 态 ， 如 果 由 于 不 再 需要 
睡眠 而 对 schedule 的 调用 被 跳 过 ， 进 程 状态 将 不 正确 . 还 有 必要 从 等 待 队 列 中 去 除 这 个 
进程 ， 否 则 它 可 能 被 多 次 唤醒 . 


6.2.5.2. 手动 睡眠 
























































在 Linux 内 核 的 之 前 的 版 本 ， 正 式 的 睡眠 要 求 程序 员 手 动 处 理 所 有 上 面 的 步骤 它 是 一 
个 繁琐 的 过 程 ， 包 含 相 当 多 的 易 出 错 的 样板 式 的 代码 ， 程 序 员 如 果 愿 意 还 是 可 能 用 那 种 方 
式 手动 睡眠 ; <linux/sched. b 包含 了 所 有 需要 的 定义 ， 以 及 围绕 例子 的 内 核 源码 ， 但 是 ， 
有 一 个 更 容易 的 方式 . 




















第 一 步 是 创建 和 初始 化 一 个 等 每 队列 ， 这 常常 由 这 个 宏 定义 完成 : 





DEFINE WAIT (my wait); 
Ho, name 是 等 待 队 列 入 口 项 的 名 子 . 你 可 用 2 步 来 做 : 


wait queue t my wait; 
init wait(&my wait); 











— 


日 是 常常 更 容易 的 做 法 是 放 一 个 DEFINE WAIT 行 在 循环 的 顶部 ， 来 实现 你 的 睡眠 . 





下 一 步 是 添加 你 的 等 待 队列 入 口 到 队列 ， 并 且 设 置 进 程 状态 .2 个 任务 都 由 这 个 函数 处 理 : 








void prepare to wait(wait queue head t *queue, wait queue t *wait, int state); 





iX, queue 和 wait 分 别 地 是 等 待 队 列 头 和 进程 入 口 . state 是 进程 的 新 状态 ; 它 应 当 
或 者 是 TASK INTERRUPTIBLE (给 可 中 断 的 睡眠 ， 这 常常 是 你 所 要 的 ) 或 者 
TASK_UNINTERRUPTIBLE (给 不 可 中 断 睡 眠 ). 



































在 调用 prepare to wait 之 后 ， 进 程 可 调用 schedule —— 在 它 已 检查 确认 它 仍然 需 要 等 
待 之 后 . 一旦 schedule 返回 ， 就 到 了 清理 时 间 . 这 个 任务 ， 也 ， 被 一 个 特殊 的 函数 处 理 : 














void finish wait(wait queue head t *queue, wait queue t *wait); 








之 后 ， 你 的 代码 可 测试 它 的 状态 并 且 看 是 否 它 需 要 再 次 等 符 . 











我 们 早 该 需要 一 个 例子 了 . 之 前 我 们 看 了 给 scullpipe 的 read 方法 ， 它 使 用 

wait event. 同一 个 驱动 中 的 write 方法 使 用 prepare to wait 和 finish wait 来 实 
现 它 的 等 待 ， 正 常 地 ， 你 不 会 在 一 个 驱动 中 象 这 样 混用 各 种 方法 ， 但 是 我 们 这 样 作 是 为 了 
能 够 展示 2 种 处 理 睡眠 的 方式 . 
































为 完整 起 见 ， 首 先 ， 我 们 看 write 方法 本 身 : 
/* How much space is free? */ 
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static int spacefree(struct scull pipe *dev) 


{ 


if (dev->rp == dev->wp) 
return dev->buffersize - 1; 
return ((dev-?rp + dev->buffersize - dev->wp) % dev-P»buffersize) - 1; 


static ssize t scull p write(struct file *filp, const char user *buf, size t 
count, 

loff t *f pos) 
{ 


struct scull pipe *dev = filp->private data.; 
int result; 
if (down interruptible (&dev->sem)) 

return -ERESTARTSYS; 


/* Make sure there's space to write */ 
result = scull getwritespace(dev, filp); 
if (result) 
return result; /* scull getwritespace called up(&dev-^sem) */ 
/* ok, space is there, accept something */ 
count - min(count, (size t)spacefree(dev)); 
if (dev-^wp >= dev—rp) 
count = min(count, (size t) (dev-^»end - dev-5^wp)); /* to end- 
of-buf */ 
else /* the write pointer has wrapped, fill up to rp-1 */ 
count = min(count, (size t) (dev->rp - dev->wp - 1)); 
PDEBUG (“Going to accept *li bytes to *p from %p\n”, (long)count, dev- 
>wp, buf); 
if (copy from user(dev-?wp, buf, count)) 


{ 





up (&dev->sem); 
return -EFAULT; 
j 
dev-?wp += count; 
if (dev->wp == dev-^end) 
dev-^wp = dev-^buffer; /* wrapped */ 
up (&dev-?sem) ; 


/* finally, awake any reader */ 
wake up interruptible(&dev-^inq); /* blocked in read() and select() */ 


/* and signal asynchronous readers, explained late in chapter 5 */ 
if (dev-^async queue) 
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kill fasync(&dev-^async queue, SIGIO, POLL IN); 
PDEBUG ("V"*$sN" did write %li bytesWn^,current-^comm, (long)count); 
return count; 


j 








这 个 代码 看 来 和 read 方法 类 似 ， 除 了 我 们 已 经 将 睡眠 代码 放 到 了 一 个 单独 的 函数 ， 称 为 
scull getwritespace. 它 的 工作 是 确保 在 缓冲 中 有 空间 给 新 的 数据 ， 睡 眠 直到 有 空间 可 
用 .一 旦 空间 在 ，scull p write 可 简单 地 拷贝 用 户 的 数据 到 那里 ， 调 整 指针 ， 并 且 唤 醒 
可 能 已 经 在 等 待 读 取 数据 的 进程 . 











处 理 实 际 的 睡眠 的 代码 是 : 





/* Wait for space for writing; caller must hold device semaphore. On 
* error the semaphore will be released before returning. */ 
static int scull getwritespace(struct scull pipe *dev, struct file *filp) 


{ 


while (spacefree(dev) == 0) 
{ /* full */ 
DEFINE WAIT (wait); 


up (&dev-?sem) ; 
if (filp->f flags & 0 NONBLOCK) 
return —-EAGAIN; 


PDEBUG(“\%s\ writing: going to sleep\n”, current->comm) ; 
prepare to wait(&dev-»outq, &wait, TASK INTERRUPTIBLE) ; 
if (spacefree(dev) == 0) 

schedule QO; 
finish wait(&dev-^outq, &wait); 
if (signal pending (current) ) 


return -ERESTARTSYS; /* signal: tell the fs layer to 
handle it */ 
if (down interruptible (&dev-^sem)) 
return -ERESTARTSYS; 
j 


return 0; 


} 





再 次 注意 while 循环 ， 如 果 有 空间 可 用 而 不 必 睡 卢 ， 这 个 函数 简单 地 返回 ， 否 则 ， 它 必 
须 丢 掉 设 备 旗 标 并 且 等 待 ， 这 个 代码 使 用 DEFINE WAIT 来 设置 一 个 等 待 队列 入 口 并 且 

prepare to wait 来 准备 好 实际 的 睡眠 ， 接 着 是 对 缓冲 的 必要 的 检查 ; 我 们 必须 处 理 的 情 
况 是 在 我 们 已 经 进入 while 循环 后 以 及 在 我 们 将 自己 放 入 等 待 队 列 之 前 ORB SE TAE 
标 )， 缓 冲 中 有 空间 可 用 了 .没有 这 个 检查 ， 如 果 读 进程 能 够 在 那 时 完全 清空 缓冲 ， 我 们 
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可 能 错过 我 们 能 得 到 的 唯一 的 唤醒 并 且 永 远 睡 眠 .在 说 服 我 们 自己 必须 睡眠 之 后 ， 我 们 调 
用 schedule. 











值得 再 看 看 这 个 情况 : 当 睡 眠 发 生 在 if 语句 测试 和 调用 schedule 之 间 ， 会 发 生 什么 ? 
在 这 个 情况 里 ， 都 好 ， 这 个 唤醒 重 置 了 进程 状态 为 TASK_RUNNING 并 且 schedule 返回 - 
- 尽管 不 必 马 上 ， 只 要 这 个 测试 发 生 在 进程 放置 自己 到 等 待 队 列 和 改变 它 的 状态 之 后 ， 事 
情 都 会 顺利 . 














为 了 结束 ， 我 们 调用 finish wait. 对 signal pending 的 调用 告诉 我 们 是 否 我 们 被 一 个 
言 号 唤醒 ; 如 果 是 ， 我 们 需要 返回 到 用 户 并 且 使 它们 稍 后 再 试 . 否则 ， 我 们 请 求 旗 标 ， 并 
且 再 次 照常 测试 空闲 空间 . 


6.2.5.3. 互 斥 等 待 

















我 们 已 经 见 到 当 一 个 进程 调用 wake up 在 等 待 队列 上 ， 所 有 的 在 这 个 队列 上 等 待 的 进程 
被 置 为 可 运行 的 .在 许多 情况 下 ， 这 是 正确 的 做 法 .但 是 ， 在 别 的 情况 下 ， 可 能 提前 知道 
只 有 一 个 被 唤醒 的 进程 将 成 功 获得 需要 的 资源 ， 并 且 其 余 的 将 简单 地 再 次 睡眠 ， 每 个 这 样 
的 进程 ， 但 是 ， 必 须 获 得 处 理 器 ， 竞 争 资源 (和 任何 的 管理 用 的 锁 )， 并 且 明 确 地 回 到 睡眠 . 
如 果 在 等 待 队列 中 的 进程 数目 大 ， 这 个 “ 恢 群 行为 可 能 严重 降低 系统 的 性 能 
























































为 应 对 实际 世界 中 的 恢 群 问题 ， 内 核 开 发 者 增加 了 一 个 “ 互 斥 等 竺 "选项 到 内 核 中 ， 一 个 互 
等 待 的 行为 非常 象 一 个 正常 的 睡眠 ， 有 2 个 重要 的 不 同 : 














。 当 一 个 等 待 队列 入 口 有 WA FLAG EXCLUSEVE 标志 置 位 ， 它 被 添加 到 等 待 队 列 的 尾 
部 ， 没 有 这 个 标志 的 入 口 项 ， 相 反 ， 添 加 到 开始 . 

e 当 wake up 被 在 一 个 等 待 队列 上 调用 ， 它 在 唤醒 第 一 个 有 WQ FLAG EXCLUSIVE 标 
志 的 进程 后 停止 . 





最 后 的 结果 是 进行 互 斥 等 待 的 进程 被 一 次 唤醒 一 个 ， 以 顺序 的 方式 ， 并 且 没 有 引起 惊 群 问 
Lo 但 内 核 仍然 每 次 唤醒 所 有 的 非 互 斥 等 竺 者 . 





在 驱动 中 采用 互 斥 等 待 是 要 考虑 的 ， 如 果 满 足 2 个 条 件 : MERER RMA ER, F 
且 唤 醒 一 个 进程 就 足够 来 完全 消耗 资源 当 资 源 可 用 时 ， 互 斥 等 待 对 Apacheweb 服务 器 工 
作 地 很 好 ， 例 如 ; 当 一 个 新 连接 进入 ， 确 实地 系统 中 的 一 个 Apache 进程 应 当 被 唤醒 来 处 
HE. 我 们 在 scullpipe 驱动 中 不 使 用 互 斥 等 待 ， 但 是 ; 很 少见 到 竞争 数据 的 读者 (或 者 
竞争 绥 冲 空间 的 写 者 )， 并 且 我 们 无 法 知道 一 个 读者 ， 一 旦 被 唤醒 ， 将 消耗 所 有 的 可 用 数 
jn. 



































使 一 个 进程 进入 可 中 断 的 等 待 ， 是 调用 prepare to wait exclusive 的 简单 事情 : 


void prepare to wait exclusive(wait queue head t *queue, wait queue t **wait, 
int state); 





这 个 调用 ， 当 用 来 代替 prepare_to_wait， 设 置 “ 互 太 "标志 在 等 待 队列 入 口 项 并 且 添 加 这 
个 进程 到 等 待 队列 的 尾部 ， 注意 没 有 办 法 使 用 wait event 和 它 的 变 体 来 进行 互 斥 等 待 . 
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6.2.5.4. 了 唤醒 的 细节 





我 们 已 展现 的 唤醒 进程 的 样子 比 内 核 中 真正 发 生 的 要 简单 ， 当 进程 被 唤醒 时 产生 的 真正 动 
作 是 被 位 于 等 待 队列 入 口 项 的 一 个 函数 控制 的 ， 缺 省 的 唤醒 函数 二 ”设置 进程 为 可 运行 的 
状态 ， 并 且 可 能 地 进行 一 个 上 下 文 切 换 到 有 更 高 优先 级 进程 设备 驱动 应 当 从 不 需要 提供 
一 个 不 同 的 唤醒 函数 ， 如 果 你 例外 ， 关 于 如 何 做 的 信息 见 《linux/wait. h> 














我 们 尚未 看 到 所 有 的 wake up 变 体 ， 大 部 分 驱动 编写 者 从 不 需要 其 他 的 ， 但 是 ， 为 完整 
起 见 ， 这 里 是 整个 集合 : 


wake up(wait queue head t *queue); 
wake up interruptible(wait queue head t *queue); 








wake up 唤醒 队列 中 的 每 个 不 是 在 互 斥 等 待 中 的 进程 ， 并 且 就 只 一 个 互 斥 等 待 者 ， 
如 果 它 存在 .wake_up_interruptible 同样 ， 除 了 它 跳 过 处 于 不 可 中 断 睡眠 的 进程 . 
这 些 函 数 ， 在 返回 之 前 ， 使 一 个 或 多 个 进程 被 唤醒 来 被 调度 (尽管 如 果 它 们 被 从 一 
个 原子 上 下 文 调用 ， 这 就 不 会 发 生 ). 














wake up nr(wait queue head t *queue, int nr); 





wake up interruptible nr(wait queue head t *queue, int nr); 





这 些 函数 类 似 wake_up， 除 了 它们 能 够 唤醒 多 达 nr 个 互 斥 等 待 者 ， 而 不 只 是 一 个 . 
注意 传递 0 被 解释 为 请 求 所 有 的 互 斥 等 待 者 都 被 唤醒 ， 而 不 是 一 个 没有 . 





wake up all(wait queue head t *queue); 





wake up interruptible all(wait queue head t *queue); 








这 种 wake up 唤醒 所 有 的 进程 ， 不 管 它们 是 否 进行 互 斥 等 待 (尽管 可 中 断 的 类 型 仍 
然 跳 过 在 做 不 可 中 断 等 待 的 进程 ) 








wake up interruptible sync(wait queue head t *queue); 





常 地 ， 一 个 被 唤醒 的 进程 可 能 抢占 当前 进程 ， 并 且 在 wake up 返回 之 前 被 调度 
到 处 理 器 ， 换 句 话 说 ， 调 用 wake up 可 能 不 是 原子 的 .如 果 调 用 wake up 的 进程 
运行 在 原子 上 下 文 ( 它 可 能 持 有 一 个 自 旋 锁 ， 例 如 ， 或 者 是 一 个 中 断 处 理 ) ， 这 个 重 
调度 不 会 发 生 ， 正常 地 ， 那 个 保护 是 足够 的 ， 但 是 ， 如 果 你 需要 明确 要 求 不 要 被 调 
度 出 处 理 器 在 那 时 ， 你 可 以 使 用 wake up interruptible 的 “同步 * 变 体 ， 这 个 函 
数 最 常用 在 当 调 用 者 要 无 论 如 何 重 新 调度 ， 并 且 它 会 更 有 效 的 来 首先 简单 地 完成 剩 
下 的 任何 小 的 工作 . 






























































如 果 上 面 的 全 部 内 容 在 第 一 次 阅读 时 没有 完全 清楚 ， 不 必 担 心 ， 很 少 请 求 会 需要 调用 
wake up interruptible 之 外 的 . 








22 [22] 它 有 一 个 想象 的 名 子 default wake function. 
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6.2.5.5. 以 前 的 历史 : sleep on 





如 果 你 花 些 时 间 深 入 内 核 源 码 ， 你 可 能 遇 到 我 们 到 目前 忽略 讨论 的 2 个 函数 : 


void sleep on(wait queue head t *queue); 
void interruptible sleep on(wait queue head t **queue); 














如 你 可 能 期 望 的 ， 这 些 函 数 无 条 件 地 使 当前 进程 睡眠 在 给 定 队 列 尚 ， 这 些 函 数 强烈 不 推荐 ， 
但 是 ， 并 且 你 应 当 从 不 使 用 它们 . 如 果 你 想 想 它 则 问题 是 明显 的 : sleep on 没 提供 方法 
Ao fT ATE. 常常 有 一 个 窗口 在 当 你 的 代码 决定 它 必须 睡眠 时 和 当 sleep on 真正 影 
响 到 睡眠 时 ， 在 那个 窗口 期 间 到 达 的 唤醒 被 错过 .， 因此， 调用 sleep on 的 代码 从 不 是 完 
全 安全 的 . 
































当前 计划 对 sleep on 和 它 的 变 体 的 调用 (有 多 个 我 们 尚未 展示 的 超时 的 类 型 ) 在 不 太 远 
的 将 来 从 内 核 中 去 措 ， 


6.2.6. 测试 scullpipe 驱动 


我 们 已 经 见 到 了 scullpipe 驱动 如 何 实现 阻塞 I/0. 如 果 你 想 试 一 试 ， 这 个 驱动 的 源码 
可 在 剩 下 的 本 书 例 子 中 找到 ， 阻 塞 I/O 的 动作 可 通过 打开 2 个 窗口 见 到 .第 一 个 可 运行 
一 个 命令 诸如 cat /dev/scullpipe. 如 果 你 接着 ， 在 男 一 个 窗口 拷贝 文件 到 
/dev/scullpipe， 你 可 见 到 文件 的 内 容 出 现在 第 一 个 窗口 . 














测试 非 阻 塞 的 动作 是 技巧 性 的 ， 因 为 可 用 于 shell 的 传统 的 程序 不 做 非 阻塞 操 作 . misc- 
progs 源码 目录 包含 下 面 简单 的 程序 ， 称 为 nbtest， 来 测试 非 阻 塞 操作 .所 有 它 做 的 是 
拷贝 它 的 输入 到 它 的 输出 ， 使 用 非 阻塞 1/0 和 在 重 试 间 延 时 ， 延 时 时 间 在 命令 行 被 传递 
被 缺 省 是 1 秒 . 





int main(int argc, char **argv) 


{ 


int delay = 1, n, m= 0; 
if (argc > 1) 
delay=atoi (argv[1]) ; 
fcntl(0, F SETFL, fentl(0,F GETFL) | O NONBLOCK); /* stdin */ 
fcntl(l, F SETFL, fcntl(1,F GETFL) | O NONBLOCK); /* stdout */ 


while (1) { 
n = read(0, buffer, 40960); 
if (n >= 0) 


m = write(l, buffer, n); 
if ((n< 0 || m < 0) && (errno != EAGAIN)) 
break; 
sleep (delay) ; 
j 


perror(n < 0 ? "stdin" : ^stdout^); 
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exit (1); 
} 





如 果 你 在 一 个 进程 跟踪 工具 ， 如 strace 下 运行 这 个 程序 ， 你 可 见 到 每 个 操作 的 成 功 或 者 
失败 ， 依 赖 是 否 当 进行 操作 时 有 数据 可 用 . 


6.3. poll 和 select 








使 用 非 阻塞 I/O 的 应 用 程序 常常 使 用 poll，select， 和 epoll 系统 调用 . poll, 
select 和 epoll 本 质 上 有 相同 的 功能 : 每 个 允许 一 个 进程 来 决定 它 是 否 可 读 或 者 写 一 个 
或 多 个 文件 而 不 阻塞 ， 这 些 调用 也 可 阻塞 进程 直到 任何 一 个 给 定 集 合 的 文件 描述 符 可 用 来 
读 或 瑟 ， 因 此 ， 它 们 常常 用 在 必须 使 用 多 输入 输出 流 的 应 用 程序 ， 而 不 必 粘 连 在 它们 任何 
一 个 上 .相同 的 功能 常常 由 多 个 函数 提供 ， 因 为 2 个 是 由 不 同 的 团队 在 几乎 相同 时 间 完 
成 的 : select 在 BSD Unix 中 引入 ， 而 poll 是 System V 的 解决 方案 .epoll Jp? 
添加 在 2. 5. 45， 作 为 使 查询 函数 扩展 到 几 千 个 文件 描述 符 的 方法 . 









































支持 任何 一 个 这 些 调用 都 需要 来 自 设 备 驱 动 的 支持 .这 个 支持 (对 所 有 3 个 调用 ) 由 驱动 
的 poll 方法 调用 . 这 个 方法 由 下 列 的 原型 : 











unsigned int (*poll) (struct file *filp, poll table *wait); 








这 个 驱动 方法 被 调用 ， 无 论 何 时 用 户 空 间 程 序 进 行 一 个 poll, select, BET epoll 系统 
调用 ， 涉 及 一 个 和 驱动 相关 的 文件 描述 符 ， 这 个 设备 方法 负责 这 2 步 : 








«d. 在 一 个 或 多 个 可 指示 碍 询 状态 变化 的 等 待 队 列 上 调用 poll wait. WA X 
件 描述 符 可 用 作 I/0， 内 核 使 这 个 进程 在 等 待 队 列 上 等 待 所 有 的 传递 给 系统 调用 的 
文件 描述 符 . 

。 2. 返回 一 个 位 掩 码 ， 描 述 可 能 不 必 阻 突 就 立刻 进行 的 操作 . 






































这 2 个 操作 常 弟 是 直接 的 ， 并 且 趋 向 与 各 个 驱动 看 起 来 类 似 ， 但 是 ， 它 们 依赖 只 能 由 驱 
动 提供 的 信息 ， 因 此 ， 必 须 由 每 个 驱动 单独 实现 . 




















poll table 结构 ， 给 poll 方法 的 第 2 个 参数 ， 在 内 核 中 用 来 实现 poll, select, A 
epoll 调用 ; 它 在 《linux/poll.h> 中 声明 ， 这 个 文件 必须 被 驱动 源码 包含 ， 驱动 编 写 者 
不 必要 知道 所 有 它 内 容 并 且 必 须 作 为 一 个 不 透明 的 对 象 使 用 它 ; 它 被 传递 给 驱动 方法 以 便 
驱动 可 用 每 个 能 唤醒 进程 的 等 待 队 列 来 加 载 它 ， 并 且 可 改变 poll 操作 状态 ， 了 驱动 增加 一 
个 等 待 队列 到 poll table 结构 通过 调用 函数 poll wait: 


























void poll wait (struct file *, wait queue head t *, poll table *); 











poll 方法 的 第 2 个 任务 是 返回 位 手 码 ， 它 描述 哪个 操作 可 马上 被 实现 ; 这 也 是 直接 的 . 
例如 ， 如 果 设 备 有 数据 可 用 ， 一 个 读 可 能 不 必 有 睡眠 而 完成 ; poll 方法 应 当 指 示 这 个 时 间 
状态 ， 几 个 标志 (通过 《1linux/poll.h> 定义 ) 用 来 指示 可 能 的 操作 : 

















23: [28] j 


= 实际 上 ，epoll 是 一 组 3 个 调用 ， 都 可 用 来 获得 查询 功能 ， 但 是 ， 由 于 我 们 的 目的 ， 我 们 可 认为 它 是 一 个 调用 . 
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POLLIN 


如 果 设 备 可 被 不 阻塞 地 读 ， 这 个 位 必须 设置 . 
POLLRDNORM 


这 个 位 必须 设置 ， 如 果 正常 “数据 可 用 来 读 ， 一 个 可 读 的 设备 返回 
( POLLIN|POLLRDNORM ). 





POLLRDBAND 


这 个 位 指示 第 外 数据 可 用 来 从 设备 中 读 取 .， 当前 只 用 在 Linux 内 核 的 一 个 地 方 
( DECnet 代码 ) 并 且 通 常 对 设备 驱动 不 可 用 ， 





POLLPRI 








高 优先 级 数据 ( 带 外 ) 可 不 阻塞 地 读 取 ， 这 个 位 使 select WEEER A 
常情 况 ， 因 为 selet 报告 带 外 数据 作为 一 个 异常 情况 . 








POLLHUP 


当 读 这 个 设备 的 进程 见 到 文件 尾 ， 驱 动 必须 设置 POLLUP (hang-up). 一 个 调用 
select 的 进程 被 告知 设备 是 可 读 的 ， 如 同 selcet 功能 所 规定 的 . 


POLLERR 





一 个 错误 情况 已 在 设备 上 发 生 ， 当 调用 poll， 设 备 被 报告 位 可 读 可 写 ， 因 为 读 写 
都 返回 一 个 错误 码 而 不 阻塞 . 


POLLOUT 





这 个 位 在 返回 值 中 设置 ， 如 果 设 备 可 被 写 入 而 不 阻塞 . 
POLLWRNORM 


这 个 位 和 POLLOUT 有 相同 的 含义 ， 并 且 有 时 它 确实 是 相同 的 数 ， 一 个 可 写 的 设备 
返回 ( POLLOUT | POLLWRNORM) . 


POLLWRBAND 








如 同 POLLRDBAND ， 这 个 位 意思 是 带 有 零 优 先 级 的 数据 可 写 入 设备 .只 有 poll 的 
数据 报 实现 使 用 这 个 位 ， 因 为 一 个 数据 报 看 传送 带 外 数据 . 





应 当 重 复 一 下 POLLRDBAND 和 POLLWRBAND 仅仅 对 关联 到 socket 的 文件 描述 符 有 意义 : 
通常 设备 驱动 不 使 用 这 些 标志 . 























poll 的 描述 使 用 了 大 量 在 实际 使 用 中 相对 简单 的 东西 . 考虑 poll 方法 的 scullpipe XX 
Ji: 
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static unsigned int scull p poll(struct file *filp, poll table *wait) 
{ 
struct scull pipe *dev = filp-^private data; 
unsigned int mask = 0; 


/** 
* The buffer is circular; it is considered full 
* if "wp' is right behind “rp” and empty if the 
* two are equal. 
*/ 
down (&dev-5 sem) ; 
poll wait(filp, &dev-^inq, wait); 
poll wait(filp, &dev-»outq, wait); 
if (dev->rp != dev-^wp) 
mask |= POLLIN | POLLRDNORM; /* readable */ 
if (spacefree(dev)) 
mask |= POLLOUT | POLLWRNORM;  /* writable */ 
up (&dev-?sem) ; 
return mask; 


} 

















这 个 代码 简单 地 增加 了 2 个 scullpipe 等 待 队列 到 poll_table， 接 着 设置 正确 的 掩 码 
位 ， 根 据 数据 是 否 可 以 读 或 写 . 


所 示 的 poll 代码 缺乏 文件 尾 支持 ， 因 为 scullpipe 不 支持 文件 尾 情况 ， 对 大 部 分 真实 
的 设备 ，pol1 方法 应 当 返 回 POLLHUP 如 果 没 有 更 多 数据 (或 者 将 ) 可 用 . 如 果 调 用 者 使 用 
select 系统 调用 ， 文 件 被 报告 为 可 读 . 个 管 是 使 用 poll 还 是 select， 应 用 程序 知道 它 
能 够 调用 read 而 不 必 永 远 等 待 ， 并 且 read 方法 返回 0 来 指示 文件 尾 . 

















例如 ， 对 于 真正 的 FIF0， 读 者 见 到 一 个 文件 尾 当 所 有 的 写 者 关闭 文件 ， 而 在 scullpipe 
中 读者 永远 见 不 到 文件 尾 . 这 个 做 法 不 同 是 因为 FIFO 是 用 作 一 个 2 个 进程 的 通讯 通道 ， 
而 scullpipe 是 一 个 垃圾 桶 ， 人 人 都 可 以 放 数据 只 要 至 少 有 一 个 读者 . 更 多 地 ， 重 新 实 
现 内 核 中 已 有 的 东西 是 没有 意义 的 ， 因 此 我 们 选择 在 我 们 的 例子 里 实现 一 个 不 同 的 做 法 . 






































与 FIFO 相同 的 方式 实现 文件 尾 就 意味 着 检查 dev->nwwriters， 在 read 和 poll 中 ， 

并 且 报 告 文件 尾 ( 如 刚刚 描述 过 的 ) 如果 没有 进程 使 设备 写 打开 .， 不幸 的 是 ， 使 用 这 个 实现 
方法 ， 如 果 一 个 读者 打开 scullpipe 设备 在 写 者 之 前 ， 它 可 能 见 到 文件 尾 而 没有 机 会 来 
等 竺 数据， 解决 这 个 问题 的 最 好 的 方式 是 在 open 中 实现 阻塞 ， 如 同 真正 的 FIFO 所 做 的 ; 
这 个 任务 留 作 读者 的 一 个 练习 . 


























6.3.1. 5E read 和 write 的 交互 





poll 和 select 调用 的 目的 是 提前 决定 是 否 一 个 1/0 操作 会 阻塞 ， 在 那个 方面 ， 它 们 补 
充 了 read 和 write. 更 重要 的 是 ，poll 和 select ， 因 为 它们 使 应 用 程序 同时 等 待 几 
个 数据 流 ， 尽 管 我 们 在 scull 例子 里 没有 采用 这 个 特性 . 
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个 正确 的 实现 对 于 使 应 用 程序 正确 工作 是 必要 的 : 尽管 下 列 的 规则 或 多 或 少 已 经 说 明 过 ， 
我 们 在 此 总 结 它们 . 


6.3.1.1. 从 设备 中 读数 据 















































。 如 果 在 输入 缓冲 中 有 数据 ，read 调用 应 当 立 刻 返 回 ， 没 有 可 注意 到 的 延迟 ， 即 便 
数据 少 于 应 用 程序 要 求 的， 并 且 驱 动 确 保 其 他 的 数据 会 很 快 到 达 ， 你 可 一 直 返 回 小 
于 你 被 请 求 的 数据 ， 如 果 因 为 任何 理由 而 方便 这 样 (我们 在 scull 中 这 样 做 )， 如 
果 你 至 少 返 回 一 个 字 节 .在 这 个 情况 下 ，pol1l 应 当 返 回 POLLIN|POLLRDNORM. 

。 如 果 在 输入 缓冲 中 没有 数据 ， 缺 省 地 read 必须 阻塞 直到 有 一 个 字 节 ， 如 果 
0_NONBLOCK 被 置 位 ， 另 一 方面 ，read 立刻 返回 -EAGIN (尽管 一 些 老 版 本 SYSTEM 
V 返回 0 在 这 个 情况 时 )， 在 这 些 情况 中 ，poll 必须 报告 这 个 设备 是 不 可 读 的 直 
到 至 少 一 个 字 节 到 达 ， 一 旦 在 缓冲 中 有 数据 ， 我 们 就 回 到 前 面 的 情况 . 

。 如 果 我 们 处 于 文件 尾 ，read 应 当 立 刻 返 回 一 个 0， 不 管 是 否 阻塞 .这 种 情况 poll 
应 该 报告 POLLHUP. 



































6.3.1.2. 写 入 设备 





。 如 果 在 输出 缓冲 中 有 空间 ，write 应 当 不 延迟 返回 ， 它 可 接受 小 于 这 个 调用 所 请 求 
的 数据 ， 但 是 它 必须 至 少 接受 一 个 字 节 .在 这 个 情况 下 ，pol1l 报告 这 个 设备 是 可 
写 的 ， 通 过 返回 POLLOUT | POLLWRNORM. 

。 如 果 输 出 缓冲 是 满 的 ， 缺 省 地 write 阻塞 直到 一 些 空间 被 释放 ， 如 果 0_NOBLOCK 
被 设置 ，write 立刻 返回 一 个 -EAGAIN (老式 的 System V Unices 返回 0). 在 这 
些 情况 下 ，poll 应 当 报 告 文件 是 不 可 写 的 ， 另 一 方面 ， 如 果 设 备 不 能 接受 任何 多 
余数 据 ，write 返回 -ENOSPC( 设备 上 没有 空间 7 ， 不 管 是 否 设置 了 0 NONBLOCK. 

。 在 返回 之 前 不 要 调用 wait 来 传送 数据 ， 即 便当 0 NONBLOCK 被 清除 .这 是 因为 许 
多 应 用 程序 选择 来 找 出 一 个 write 是 否 会 阻塞 ， 如果 设 备 报 告 可 写 ， 调 用 必须 不 
阻塞 .如 果 使 用 设备 的 程序 想 保证 它 加 入 到 输出 缓冲 中 的 数据 被 真正 传送 ， 驱 动 必 
须 提 供 一 个 fsync 方法 . 例如， 一 个 可 移 除 的 设备 应 当 有 一 个 fsnyc AH. 



























































尽管 有 一 套 通 用 的 规则 ， 还 应 当 认 识 到 每 个 设备 是 唯一 的 并 且 有 时 这 些 规则 必须 稍微 弯曲 
一 下 。 例 如， 面向 记录 的 设备 (例如 磁带 设备 ) 无 法 执行 部 分 写 . 


6.3.1.3. 刷新 挂 起 的 输出 














我 们 已 经 见 到 write 方法 如 何 自 己 不 能 解决 全 部 的 输出 需要 .fsync 函数 ， 由 同名 的 系 
统 调用 而 调用 ， 填 补 了 这 个 空缺 ， 这 个 方法 原型 是 : 














int Ckfsync) (struct file *file, struct dentry *dentry, int datasync); 




















如 果 一 些 应 用 程序 需要 被 确保 数据 被 发 送 到 设备 ，fsync 方法 必须 被 实现 为 不 管 
0_NONBLOCK 是 否 被 设置 . 对 fsync 的 调用 应 当 只 在 设备 被 完全 刷新 时 返回 ( 即 ， 输 出 组 
冲 为 空 )， 即 便 这 需要 一 些 时 间 . datasync 参数 用 来 区 分 fsync 和 fdatasync 系统 调用 ; 
这 样 ， 它 只 对 文件 系统 代码 有 用 ， 驱 动 可 以 忽略 它 . 
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fsync 方法 没有 不 寻常 的 特性 ， 这 个 调用 不 是 时 间 关 键 的 ， 因 此 每 个 设备 驱动 可 根据 作者 
的 口味 实现 它 ， 大 部 分 的 时 间 ， 字 符 驱 动 只 有 一 个 NULL 指针 在 它们 的 fops 中 .阻塞 设 
备 ， 另 一 方面 ， 常 常 实现 这 个 方法 使 用 通用 的 block_fsync， 它 接着 会 刷新 设备 的 所 有 的 
块 . 


6. 3. 2， 底 层 的 数据 结构 


poll 和 select 系统 调用 的 真正 实现 是 相当 地 简单 ， 对 那些 感 兴趣 于 它 如 何 工作 的 人 ; 
epoll 更 加 复杂 一 点 但 是 建立 在 同样 的 机 制 上 ， 无 论 何 时 用 户 应 用 程序 调用 poll, 
select， 或 者 epoll ctl, 名 ”内 核 调 用 这 个 系统 调用 所 引用 的 所 有 文件 的 poll 方法 ， 
传递 相同 的 poll table 到 每 个 ，poll_table 结构 只 是 对 一 个 函数 的 封装 ， 这 个 函数 建 
立 了 实际 的 数据 结构 ， 那 个 数据 结构 ， 对 于 pol1 和 select， 是 一 个 内 存 页 的 链表 ， 其 中 
4 poll table entry 结构 ， 每 个 poll_table_entry 持 有 被 传递 给 poll wait 的 
struct file 和 wait queue head t 指针 ， 以 及 一 个 关联 的 等 待 队列 入 口 ， 对 
poll wait 的 调用 有 时 还 添加 这 个 进程 到 给 定 的 等 待 队列 ， 整 个 的 结构 必须 由 内 核 维护 以 
至 于 这 个 进程 可 被 从 所 有 的 队列 中 去 除 ， 在 poll 或 者 select 返回 之 前 . 



















































































如 果 被 轮 询 的 驱动 没有 一 个 指示 1/0 可 不 阻 赛 地 发 生 ，pol1 调用 简单 地 睡眠 直到 一 个 它 
所 在 的 等 待 队 列 ( 可 能 许多 ) 唤醒 它 . 





在 poll 实现 中 有 趣 的 是 驱动 的 poll 方法 可 能 被 用 一 个 NULL 指针 作为 poll_table 参 
A. 这 个 情况 出 现 由 于 几 个 理由 .如果 调 用 poll 的 应 用 程序 已 提供 了 一 个 0 的 超时 值 
(指示 不 应 当做 等 待 )， 没 有 理由 来 堆积 等 待 队 列 ， 并 且 系 统 简 单 地 不 做 它 . poll table 

指针 还 被 立刻 设置 为 NULL 在 任何 被 轮 询 的 驱动 指示 可 以 1/0 之 后 .因为 内 核 在 那 一 点 
知道 不 会 发 生 等 待 ， 它 不 建立 等 待 队列 链表 . 





























当 poll 调用 完成 ，poll_table 结构 被 去 分 配 ， 并 且 所 有 的 之 前 加 入 到 poll 表 的 等 竺 
队列 入 口 被 从 表 和 它们 的 等 待 队 列 中 移出 . 








我 们 试图 在 图 poll 背后 的 数据 结构 中 展示 包含 在 轮 询 中 的 数据 结构 ; 这 个 图 是 真实 数据 
结构 的 简化 地 表示 ， 因 为 它 忽略 了 一 个 poll 表 地 多 页 性 质 并 且 名 略 了 每 个 
poll table entry 的 文件 指针 . 


图 6.1. poll 背后 的 数据 结构 

















"OU 这 是 建立 内 部 数据 结构 为 将 来 调用 epoll wait 的 函数 . 
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The struct poll table struct A process calls poll for one device only 


int error; 








struct poll table page *tables; 


The struct poll table entry f 
wait_queue_t wait; 
wait_queue_head_t *wait_address; 


A generic device structure A process calls poll (or select) on two devices 














its 
wait_queue_head_t 


m, A process with an active pol! () 
The struct 

poll table struct 

E Poll table entries 


在 此 ， 可 能 理解 在 新 的 系统 调用 epoll 后 面 的 动机 ， 在 一 个 典型 的 情况 中 ， 一 个 对 poll 
或 者 select 的 调用 只 包括 一 组 文件 描述 符 ， 所 以 设置 数据 结构 的 开销 是 小 的 ， 但是， 有 
应 用 程序 在 那里 ， 它 们 使 用 儿 千 个 文件 描述 符 ， 在 这 时 ， 在 每 次 1/0 操作 之 间 设 置 和 销 
毁 这 个 数据 结构 变 得 非常 昂贵 .epol1l 系统 调用 家 族人 允许 这 类 应 用 程序 建立 内 部 的 内 核 数 
据 绪 构 只 一 次 ， 并 且 多 次 使 用 它们 . 


6. 4， 异 步 通知 


尽管 阻塞 和 非 阻塞 操作 和 select 方法 的 结合 对 于 查询 设备 在 大 部 分 时 间 是 足够 的 ， 一 些 
情况 还 不 能 被 我 们 迄今 所 见 到 的 技术 来 有 效 地 解决 . 






































让 我 们 想象 一 个 进程 ， 在 低 优先 级 上 执行 一 个 长 计算 循环 ， 但 是 需要 尽 可 能 快 的 处 理 输入 
数据 ， 如 果 这 个 进程 在 啊 应 新 的 来 自 某 些 数 据 获 取 外 设 的 报告 ， 它 应 当 立 刻 知道 当 新 数据 
可 用 时 ， 这 个 应 用 程序 可 能 被 编写 来 调用 poll 有 规律 地 检查 数据 ， 但 是 ， 对 许多 情况 ， 
有 更 好 的 方法 . 通过 使 能 异步 通知 ， 这 个 应 用 程序 可 能 接受 一 个 信号 无 论 何 时 数据 可 用 并 
且 不 需要 让 自己 去 查询 . 


























用 户 程序 必须 执行 2 个 步骤 来 使 能 来 自 输 入 文件 的 异步 通知 ， 首 先 ， 它 们 指定 一 个 进程 
作为 文件 的 拥有 者 . 当 一 个 进程 使 用 fentl 系统 调用 发 出 F SETOWN 命令 ， 这 个 拥有 者 
进程 的 ID 被 保存 在 filp-^f owner 给 以 后 使 用 .这 一 步 对 内 核 知道 通知 谁 是 必要 的 . 

为 了 真正 使 能 异步 通知 ， 用 户 程序 必须 设置 FASYNC 标志 在 设备 中 ， 通 过 F_SETFL fentl 


AA 
命令 . 
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在 这 2 个 调用 已 被 执行 后 ， 输 入 文件 可 请 求 递交 一 个 SIGI0 信号 ， 无 论 何 时 新 数据 到 达 . 
信号 被 发 送 给 存储 于 filp->f_owner 中 的 进程 (或 者 进程 组 ， 如 果 值 为 负 值 ) 























SET 


1 如 ， 下 面 的 用 户 程 序 中 的 代码 行使 能 了 腊 步 的 通知 到 当前 进程 ， 给 stdin 输入 文件 : 


signal(SIGIO, &input handler); /* dummy sample; sigaction() is better */ 
fcntl(STDIN FILENO, F SETOWN, getpidO); 

oflags = fentl(STDIN FILENO, F GETFL); 

fcntl(STDIN FILENO, F SETFL, oflags | FASYNC) ， 


这 个 在 源码 中 名 为 asynctest 的 程序 是 一 个 简单 的 程序 ， 读 取 stdin. 它 可 用 来 测试 
scullpipe 的 异步 能 力 ， 这 个 程序 和 cat 类 似 但 是 不 结束 于 文件 尾 ; 它 只 响应 输入 ， 而 
不 是 没有 输入 . 

















注意 ， 但 是 ， 不 是 所 有 的 设备 都 支持 异步 通知 ， 并 且 你 可 选择 不 提供 它 ， 应 用 程序 第 常 候 
定 异 步 能 力 只 对 socket 和 tty 可 用 . 


输入 通知 有 一 个 剩 下 的 问题 . 当 一 个 进程 收 到 一 个 SIGI0， 它 不 知道 哪个 输入 文件 有 新 数 
据 提 供 ， 如 果 多 于 一 个 文件 被 使 能 异步 地 通知 挂 起 输入 的 进程 ， 应 用 程序 必须 仍然 靠 
poll 或 者 select 来 找 出 发 生 了 什么 . 

6. 4. 1， 驱动 的 观点 


对 我 们 来 说 一 个 更 相关 的 主题 是 设备 驱动 如 何 实现 异步 信号 .下 面 列 出 了 详细 的 操作 顺序 ， 
从 内 核 的 观点 : 

















。 1. XRH RF_SETOWN， 什 么 都 没 发 生 ， 除 了 一 个 值 被 赋值 给 filp->f_owner. 

e 2， 当 F SETFL 被 执行 来 打开 FASYNC， 驱 动 的 fasync 方法 被 调用 .这 个 方法 被 
调用 无 论 何 时 FASYNC 的 值 在 filp-^f flags 中 被 改变 来 通知 驱动 这 个 变化 ， 因 
此 它 可 正确 地 响应 ， 这 个 标志 在 文件 被 打开 时 缺 省 地 被 清除 ， 我 们 将 看 这 个 驱动 方 

法 的 标准 实现 ， 在 本 节 ， 

。 3， 当 数据 到 达 ， 所 有 的 注册 异步 通知 的 进程 必须 被 发 出 一 个 SIGI0 fi. 






































虽然 实现 第 一 步 是 容易 的 一 在 驱动 部 分 没有 什么 要 做 的 一 其 他 的 步骤 包括 维护 一 个 动态 数 
据 结 构 来 跟踪 不 同 的 异步 读者 ; 可 能 有 儿 个 .这 个 动态 数据 结构 ， 但 是 ， 不 依赖 特殊 的 设 
备 ， 并 且 内 核 提 供 了 一 个 合适 的 通用 实现 这 样 你 不 必 重 新 编写 同样 的 代码 给 每 个 驱动 . 























Linux 提供 的 通用 实现 是 基于 一 个 数据 结构 和 2 个 函数 (它们 在 前 面 所 说 的 第 2 步 和 第 
3 步 被 调用 ). 声明 相关 材料 的 头 文 件 是 <linux/fs. h>( 这 里 没 新 东西 )， 并 且 数 据 结构 被 
MK struct fasync_struct， 至 于 等 待 队 列 ， 我 们 需要 插入 一 个 指针 在 设备 特定 的 数据 
结构 中 . 


























驱动 调用 的 2 个 函数 对 应 下 面 的 原型 : 


int fasync helper(int fd, struct file *filp, int mode, struct fasync struct 
**fa) ; 
void kill fasync(struct fasync struct **kfa, int sig, int band); 
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fasyne helper 被 调用 来 从 相关 的 进程 列表 中 添加 或 去 除 入 口 项 ， 当 FASYNC 标志 因 一 个 
打开 文件 而 改变 ， 它 的 所 有 参数 除了 最 后 一 个 ， 都 被 提供 给 fasync 方法 并 且 被 直接 传递 
当 数 据 到 达 时 kill fasync 被 用 来 通知 相关 的 进程 . 它 的 参数 是 被 传递 的 信号 (常常 是 
SIGI0) 和 band， 这 几乎 都 是 POLL IN 天 (但 是 这 可 用 来 发 送 “ 紧 急 “ 或 者 带 外 数据 ， 在 网 
络 代码 里 ). 














这 是 scullpipe 如 何 实现 fasync 方法 的 : 


static int scull p fasync(int fd, struct file *filp, int mode) 
{ 

struct scull pipe *dev = filp->private data; 

return fasync helper(fd, filp, mode, &dev-^async queue); 


} 











显然 所 有 的 工作 都 由 fasync_helper 进行 但是， 不 可 能 实现 这 个 功能 在 没有 一 个 方法 
在 驱动 里 的 情况 下 ， 因 为 这 个 帮忙 函数 需要 存 取 正确 的 指向 struct fasyne struct (这 
里 是 与 dev->async_queue) 的 指针 ， 并 且 只 有 驱动 可 提供 这 个 信息 . 























当 数 据 到 达 ， 下 面 的 语句 必须 被 执行 来 通知 异步 读者 ， 因 为 对 sucllpipe 读者 的 新 数据 
通过 一 个 发 出 write 的 进程 被 产生 ， 这 个 语句 出 现在 scullpipe 的 write 方法 中 . 











if (dev->async queue) 
kill fasync(&dev-^async queue, SIGIO, POLL IN); 


注意 ， 一 些 设备 还 实现 异步 通知 来 指示 当 设 备 可 被 写 入 时 ; 在 这 个 情况 ， 当 然 ， 
kill fasnyc 必须 被 使 用 一 个 POLL OUT 模式 来 调用 . 








可 能 会 出 现 我 们 已 经 完成 但 是 仍然 有 一 件 事 遗漏 ， 我 们 必须 调用 我 们 的 fasync 方法 ， 当 
文件 被 关闭 来 从 激活 异步 读者 列表 中 去 除 文件 ， 尽 管 这 个 调用 仅 当 filp->f_flags 被 设 
置 为 FASYNC 时 需要 ， 调 用 这 个 函数 无 论 如 何不 会 有 问题 并 且 是 常见 的 实现 下面 的 代码 
行 ， 例 如 ， 是 scullpipe 的 release 方法 的 一 部 分 : 




















/* remove this filp from the asynchronously notified filp's */ 
scull p fasync(-1l, filp, 0); 











这 个 在 异步 通知 之 下 的 数据 结构 一 直 和 结构 struct wait queue 是 一 致 的 ， 因 为 2 种 情 
况 都 涉及 等 待 一 个 事件 ， 区别 是 这 个 struct file 被 用 来 替代 struct task struct. [A 
列 中 的 结构 file 接着 用 来 存 取 f_owner， 为 了 通知 进程 . 


6. 5， 移 位 一 个 设备 


本 章 最 后 一 个 需要 我 们 涉及 的 东西 是 llseek 方法 ， 它 有 用 (对 于 某 些 设备 ) 并 且 容 易 实 现 . 

















^ UN poLL IN 是 一 个 符号 ， 用 在 异步 通知 代码 中 ; 它 等 同 于 POLLIN|POLLRDNORM. 
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6.5.1. llseek 实现 








llseek 方法 实现 了 lseek 和 llseek 系统 调用 ， 我 们 已 经 说 了 如 果 llseek 方法 从 设备 
的 操作 中 缺失 ， 内 核 中 的 缺 省 的 实现 进行 移 位 通过 修改 filp-^f pos， 这 是 文件 中 的 当前 
读 写 位 置 . 请 注意 对 于 lseek 系统 调用 要 正确 工作 ， 读 和 写 方法 必须 配合 ， 通 过 使 用 和 
更 新 它们 收 到 的 作为 的 参数 的 offset 项 . 
































你 可 能 需要 提供 你 自己 的 方法 ， 如 果 移 位 操作 对 应 一 个 在 设备 上 的 物理 操作 .一 个 简单 的 
例子 可 在 scull 驱动 中 找到 : 





loff t scull llseek(struct file *filp, loff t off, int whence) 
{ 

struct scull dev *dev = filp->private data; 

loff t newpos; 


switch (whence) 

{ 

case 0: /* SEEK SET */ 
newpos = off; 
break; 


case 1: /* SEEK CUR x*/ 
newpos = filp->f pos + off; 
break; 


case 2: / SEEK END x*/ 
newpos = dev-?size + off; 
break; 


default: /* can't happen */ 
return -EINVAL; 
j 
if (newpos < 0) 
return -EINVAL; 
filp-^f pos = newpos; 
return newpos; 


j 








唯一 设备 特定 的 操作 是 从 设备 中 获取 文件 长 度 ， 在 scull 中 read 和 write 方法 如 需要 
地 一 样 协作 ， 如 同 在 第 3 章 所 示 . 








尽管 刚刚 展示 的 这 个 实现 对 scull 有 意义 ， 它 处 理 一 个 被 很 好 定义 了 的 数据 区 ， 大 部 分 
设备 提供 了 一 个 数据 流 而 不 是 一 个 数据 区 ( 想 想 串口 或 者 键盘 )， 并 且 移 位 这 些 设 备 没 有 意 
义 . 如 果 这 就 是 你 的 设备 的 情况 ， 你 不 能 只 制止 声明 IIseek 操作 ， 因 为 缺 省 的 方法 允许 
移 位 ， 相 反 ， 你 应 当 通 知 内 核 你 的 设备 不 支持 llseek ， 通 过 调用 nonseekable open 在 
你 的 open 方法 中 ， 
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int nonseekable open(struct inode *inode; struct file *filp); 


这 个 调用 标识 了 给 定 的 filp 为 不 可 移 位 的 ; 内 核 从 不 允许 一 个 lseek 调用 在 这 样 一 个 
文件 上 成 功 . 通过 用 这 样 的 方式 标识 这 个 文件 ， 你 可 确定 不 会 有 通过 pread 和 pwrite 
系统 调用 的 方式 来 试图 移 位 这 个 文件 . 





























完整 起 见 ， 你 也 应 该 在 你 的 file operations 结构 中 设置 11seek 方法 到 一 个 特殊 的 帮 
ICK no 11lseek， 它 定义 在 《linux/fs. h>. 


6. 6， 在 一 个 设备 文件 上 的 存 取 控制 


提供 存 取 控 制 对 于 一 个 设备 节点 来 说 有 时 是 至 关 重 要 的 .不仅 是 非 授权 用 户 不 能 使 用 设备 
(由 文件 系统 许可 位 所 强加 的 限制 )， 而 且 有 时 只 有 授权 用 户 才 应 当 被 允许 来 打开 设备 一 次 . 


























这 个 问题 类 似 于 使 用 ttys 的 问题 ， 在 那个 情况 下 ，1login 进程 改变 设备 节点 的 所 有 权 ， 
无 论 何 时 一 个 用 户 登 录 到 系统 ， 为 了 阻止 其 他 的 用 户 打扰 或 者 偷 听 这 个 tty 的 数据 流 . 

但 是 ， 仅 仅 为 了 保证 对 它 的 唯一 读 写 而 使 用 一 个 特权 程序 在 每 次 打开 它 时 改变 一 个 设备 的 
拥有 权 是 不 实际 的 . 





迄今 所 显示 的 代码 没有 实现 任何 的 存 取 控制 ， 除 了 文件 系统 许可 位 ， 如 果 系 统 调用 open 
将 请 求 递交 给 驱动 ，open 就 成 功 了 ， 我 们 现在 介绍 几 个 新 技术 来 实现 一 些 额 外 的 检查 . 





每 个 在 本 节 中 展示 的 设备 有 和 空 的 scull 设备 有 相同 的 行为 ( 即 ， 它 实现 一 个 持久 的 内 存 
区 ) 但 是 在 存 取 控制 方面 和 scull 不 同 ， 这 个 实现 在 open 和 release 操作 中 . 


6.6.1. Æ open 设备 


提供 存 取 控 制 的 强力 方式 是 只 允许 一 个 设备 一 次 被 一 个 进程 打开 ( 单 次 打开 ) .这 个 技术 最 
好 是 避免 因为 它 限 制 了 用 户 的 灵活 性 ， 一 个 用 户 可 能 想 运 行 不 同 的 进程 在 一 个 设备 上 ， 一 
个 读 状 态 信息 而 另 一 个 写 数据 ， 在 某 些 情况 下 ， 用 户 通过 一 个 外 过 脚本 运行 几 个 简单 的 程 
序 可 做 很 多 事情 ， 只 要 它们 可 并 发 存 取 设 备 ， 换 名 话说 ， 实 现 一 个 单 open 行为 实际 是 在 
创建 策略 ， 这 样 可 能 会 介入 你 的 用 户 要 做 的 范围 ， 















































只 允许 单个 进程 打开 设备 有 不 期 望 的 特性 ， 但 是 它 也 是 一 个 设备 驱动 最 简单 实现 的 存 取 控 
制 ， 因 此 它 在 这 里 被 展示 .这 个 源码 是 从 一 个 称 为 scullsingle 的 设备 中 提取 的 . 





scullsingle 设备 维护 一 个 atiomic t 变量 ， 称 为 scull s available; 这 个 变量 被 初 
始 化 为 值 1， 表 示 设 备 确实 可 用 . open 调用 递减 并 测试 scull s available 并 拒绝 存 取 
如 果 其 他 人 已 经 使 设备 打开 . 




















static atomic t scull s available = ATOMIC INIT (1) ; 
static int scull s open(struct inode *inode, struct file *filp) 


{ 


struct scull dev *dev = &scull s device; /* device information */ 
if (! atomic dec and test (&scull s available)) 


{ 
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atomic inc(&scull s available); 
return -EBUSY; /* already open */ 
} 


/* then, everything else is copied from the bare scull device */ 
if ( (filp-^f flags & 0 ACCMODE) == 0 WRONLY) 


scull trim(dev); 
filp-^private data = dev; 
return 0; /* success */ 


} 
release 调用 ， 男 一 方面 ， 标 识 设 备 为 不 再 忙 : 


static int scull s release(struct inode *inode, struct file *filp) 
{ 
atomic inc(&scull s available); /* release the device */ 
return 0; 








常 地 ， 我 们 建议 你 将 open 标志 scul s available 放 在 设备 结构 中 ( scull dev 这 
里 )， 因 为 ， 从 概念 上 ， 它 属于 这 个 设备 ，scull 了 驱动， 但 是 ， 使 用 独立 的 变量 来 保持 这 
个 标志 ， 因 此 它 可 使 用 和 空 scull 设备 同样 的 设备 结构 和 方法 ， 并 且 最 少 的 代码 复制 . 


6.6.2. 一 次 对 一 个 用 户 限制 存 取 


单打 开设 备 之 外 的 下 一 步 是 使 一 个 用 户 在 多 个 进程 中 打开 一 个 设备 ， 但 是 一 次 只 允许 一 个 
用 户 打 开设 备 ， 这 个 解决 方案 使 得 容易 测试 设备 ， 因 为 用 户 一 次 可 从 儿 个 进程 读 写 ， 但 是 
假定 这 个 用 户 负责 维护 在 多 次 存 取 中 的 数据 完整 性 ， 这 通过 在 open 方法 中 添加 检查 来 实 
现 ;这样 的 检查 在 通常 的 许可 检查 后 进行 ， 并 且 只 能 使 存 取 更 加 严格 ， 比 由 拥有 者 和 组 许 
可 位 所 指定 的 限制 ， 这 是 和 ttys 所 用 的 存 取 策略 是 相同 的 ， 但 是 它 不 依赖 于 外 部 的 特权 
程序 . 





















































这 些 存 取 策略 实现 地 有 些 比 单打 开 策 略 要 奇怪 .在 这 个 情况 下 ， 需 要 2 项 : 一 个 打开 计 
数 和 设备 拥有 者 uid， 再 一 次 ， 给 这 个 项 的 最 好 的 地 方 是 在 设备 结构 中 ; 我 们 的 例子 使 用 
全 局 变量 代替 ， 是 因为 之 前 为 scullsingle 所 解释 的 的 原因 . 这 个 设备 的 名 子 是 


sculluid. 





























open 调用 在 第 一 次 打开 时 同意 了 存 取 但 是 记 住 了 设备 拥有 者 ， 这 意味 着 一 个 用 户 可 打开 
设备 多 次 ， 因 此 允许 协调 多 个 进程 对 设备 并 发 操作 . 同时， 没有 其 他 用 户 可 打开 它 ， 这 样 
避免 了 外 部 干扰， 因为 这 个 函数 版 本 几乎 和 之 前 的 一 致 ， 这 样 相 关 的 部 分 在 这 里 被 复制 : 








spin lock(&scull u lock); 

if (scull u count && 
(scull u owner !- current-^uid) && /* allow user */ 
(scull u owner != current-^»euid) && /* allow whoever did su */ 
!capable(CAP DAC OVERRIDE)) 
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{ /* still allow root */ 
spin unlock(&scull u lock); 
return -EBUSY; /* -EPERM would confuse the user */ 
j 


if (scull u count == 0) 
scull u owner = current-?uid; /* grab it */ 


scull u count++; 
spin unlock(&scull u lock); 


注意 sculluid 代码 有 2 个 变量 ( scull u owner 和 scull u count) 来 控制 对 设备 的 
存 取 ， 并 且 这 样 可 被 多 个 进程 并 发 地 存 取 . 为 使 这 些 变量 安全 ， 我 们 使 用 一 个 自 旋 锁 控 制 
对 它们 的 存 取 ( scull u lock ). 没有 这 个 锁 ，2 个 (或 多 个 ) 进程 可 同时 测试 
scull u count ， 并 且 都 可 能 认为 它们 拥有 设备 的 拥有 权 ， 这 里 使 用 一 个 自 旋 锁 ， 是 因为 
这 个 锁 被 持 有 极 短 的 时 间 ， 并 且 驱 动 在 持 有 这 个 锁 时 不 做 任何 可 睡眠 的 事情 . 


























我 们 选择 返回 -EBUSY 而 不 是 -EPERM， 即 便 这 个 代码 在 进行 许可 检测 ， 为 了 给 一 个 被 拒 
绝 存 取 的 用 户 指 出 正确 的 方向 ， 对 于 “许可 拒绝 “的 反应 常常 是 检查 /dev 文件 的 模式 和 拥 
有 者 ， 而 “设备 忙 正确 地 建议 用 户 应 当 寻 找 一 个 已 经 在 使 用 设备 的 进程 . 









































这 个 代码 也 检查 来 看 是 否 正 在 试图 打开 的 进程 有 能 力 来 覆盖 文件 存 取 许可 ; 如 果 是 这 样 ， 
open 被 允许 即便 打开 进程 不 是 设备 的 拥有 者 . CAP DAC OVERRIDE 能 力 在 这 个 情况 中 适合 
这 个 任务 . 











release 方法 看 来 如 下 : 


static int scull u release(struct inode *inode, struct file *filp) 


{ 
spin lock(&scull u lock); 


scull u count--; /* nothing else */ 
spin unlock(&scull u lock); 
return 0; 


j 











再 次 ， 我 们 在 修改 计数 之 前 必须 获得 锁 ， 来 确保 我 们 没有 和 另 一 个 进程 竞 
6. 6. 3， 阻 塞 open 作为 对 EBUSY 的 替代 


当 设 备 不 可 存 取 ， 返 回 一 个 错误 常常 是 最 合理 的 方法 ， 但 是 有 些 情况 用 户 可 能 更 愿意 等 待 
设备 . 

例如 ， 如 果 一 个 数据 通讯 通道 既 用 于 规律 地 预期 地 传送 报告 (使 用 crontab)， 也 用 于 根据 
用 户 的 需要 偶尔 地 使 用 ， 对 于 被 安排 的 操作 最 好 是 稍微 延迟 ， 而 不 是 只 是 因为 通道 当前 忙 
而 失败 . 
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这 是 程序 员 在 设计 一 个 设备 驱动 时 必须 做 的 一 个 选择 之 一 ， 并 且 正 确 的 答案 依赖 正 被 解决 
的 实际 问题 . 























对 EBUSY 的 奉 代 ， 如 同 你 可 能 已 经 想到 的 ， 是 实现 阻塞 open. scullwuid 设备 是 一 个 在 
打开 时 等 待 设备 而 不 是 返回 -EBUSY 的 sculluid 版 本 ， 它 不 同 于 sculluid 只 在 下 面 的 
打开 操作 部 分 : 


spin lock(&scull w lock); 
while (! scull w available) 
{ 
spin unlock(&scull w lock); 
if (filp->f flags & 0 NONBLOCK) 
return -EAGAIN; 
if (wait event interruptible (scull w wait, scull w available O)) 
return -ERESTARTSYS; /* tell the fs layer to handle it */ 
spin lock(&scull w lock); 
} 
if (scull w count == 0) 
scull w owner = current-?uid; / grab it */ 
scull w count-**; 
spin unlock(&scull w lock); 


这 个 实现 再 次 基于 一 个 等 待 队 列 ， 如 果 设 备 当 前 不 可 用 ， 试 图 打开 它 的 进程 被 放置 到 等 待 
队列 直到 拥有 进程 关闭 设备 . 





release 方法 ， 接 着 ， 负 责 唤 醒 任 何 挂 起 的 进程 : 


static int scull w release(struct inode *inode, struct file *filp) 


{ 


int temp; 
spin lock(&scull w lock); 
scull w count--; 
temp = scull w count; 
spin unlock(&scull w lock); 
if (temp == 0) 
wake up interruptible sync(&scull w wait); /* awake other uiď s */ 
return 0; 


} 


这 是 一 个 例子 ， 这 里 调用 wake up interruptible sync 是 有 意义 的 . 当 我 们 做 这 个 唤醒 ， 
我 们 只 是 要 返回 到 用 户 空间 ， 这 对 于 系统 是 一 个 自然 的 调度 点 ， 妆 我 们 做 这 个 唤醒 时 不 是 
潜在 地 重新 调度 ， 最 好 只 是 调用 “sync” 版 本 并 且 完 成 我 们 的 工作 . 








阻塞 式 打开 实现 的 问题 是 对 于 交互 式 用 户 真 的 不 好 ， 他 们 不 得 不 猜想 哪里 出 错 了 .交互 式 
用 户 常常 调用 标准 命令 ， 例 如 cp 和 tar， 并 且 不 能 增加 0_NONBLOCK 到 open 调用 . 有 
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些 使 用 磁带 驱动 器 做 备份 的 人 可 能 喜欢 有 一 个 简单 的 “设备 或 者 资源 忙 " 消 息 ， 来 蔡 代 被 扔 
在 一 边 猜 为 什么 今天 的 硬盘 驱动 器 这 么 安静 ， 此 时 tar 应 当 在 扫描 它 . 


























这 类 的 问题 (需要 一 个 不 同 的 ， 不 兼容 的 策略 对 于 同一 个 设备 ) 最 好 通过 为 每 个 存 取 策略 实 
现 一 个 设备 节点 来 实现 ， 这 个 做 法 的 一 个 例子 可 在 linux 磁带 驱动 中 找到 ， 它 提供 了 多 
个 设备 文件 给 同一 个 设备 ， 例 如 ， 不 同 的 设备 文件 将 使 驱动 器 使 用 或 者 不 用 压缩 记录 ， 或 
者 自动 回 绕 磁 带 当 设备 被 关闭 时 . 


6.6.4. YE open 时 复制 设备 
里 存 取 控 制 的 另 一 个 技术 是 创建 设备 的 不 同 的 私有 拷贝 ， 根 据 打开 它 的 进程 . 
































Dg 
VH 











明显 地 ， 这 只 当 设 备 没 有 绑 定 到 一 个 便 件 实体 时 有 可 能 ; scull 是 一 个 这 样 的 “软件 “设备 
的 例子 . /dev/tty 的 内 部 使 用 类 似 的 技术 来 给 它 的 进程 一 个 不 同 的 /dev 入 口 点 呈现 的 
视图 ， 当 设备 的 拷贝 被 软件 驱动 创建 ， 我 们 称 它 们 为 虚拟 设备 -- 就 象 虚拟 控制 台 使 用 一 个 
物理 tty 设备 . 





























结构 这 类 的 存 取 控 制 很 少 需要 ， 这 个 实现 可 说 明 内 核 代码 是 多 么 容易 改变 应 用 程序 的 对 周 
围 世 界 的 看 法 ( 即 ， 计 算 机 ). 





/dev/scullpriv 设备 节点 在 scull 软件 包 只 实现 虚拟 设备 ，scullpriv 实现 使 用 了 进程 
的 控制 tty 的 设备 号 作为 对 存 取 虚 拟 设 备 的 钥匙 ， 但是， 你 可 以 轻易 地 改变 代码 来 使 用 
任何 整数 值 作为 钥匙 ; 每 个 选择 都 导致 一 个 不 同 的 策略 ， 例如， 使 用 uid 导致 一 个 不 同 
地 虚拟 设备 给 每 个 用 户 ， 而 使 用 一 个 pid 钥匙 创建 一 个 新 设备 为 每 个 存 取 它 的 进程 . 












































使 用 控制 终端 的 决定 打算 用 在 易于 使 用 1/0 重 定向 测试 设备 : 设备 被 所 有 的 在 同一 个 虚 
拟 终端 运行 的 命令 所 共享 ， 并 且 保 持 独 立 于 在 另 一 个 终端 上 运行 的 命令 所 见 到 的 . 











open 方法 看 来 象 下 面 的 代码 ， 它 必须 寻找 正确 的 虚拟 设备 并 且 可 能 创建 一 个 ， 这 个 函数 
的 最 后 部 分 没有 展示 ， 因 为 它 找 贝 自 空 的 scul1， 我 们 已 经 见 到 过 . 


/* The clone-specific data structure includes a key field */ 
struct scull listitem 
{ 

struct scull dev device; 

dev_t key; 

struct list_head list; 


E 

/* The list of devices, and a lock to protect it */ 
static LIST HEAD (scull c list); 

static spinlock t scull c lock = SPIN LOCK UNLOCKED; 


/* Look for a device or create one if missing */ 
static struct scull dev *scull c lookfor device(dev t key) 


{ 
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struct scull listitem *lptr; 
list for each entry(lptr, &scull c list, list) 
{ 
if (lptr->key == key) 
return &(lptr-^device); 


/* not found */ 
lptr = kmalloc(sizeof(struct scull listitem), GFP KERNEL); 
if (!lptr) 
return NULL; 
/* initialize the device */ 
memset(lptr, 0, sizeof(struct scull listitem)); 
lptr-^key = key; 
scull trim(&(lptr-^device)); /* initialize it */ 
init MUTEX (& (1ptr-?device. sem)) ; 


/* place it in the list */ 
list add(&lptr-^list, &scull c list); 


return &(lptr-^device); 


j 


static int scull c open(struct inode *inode, struct file *filp) 


{ 


struct scull dev *dev; 


dev t key; 
if (Icurrent-^signal-^tty) 


{ 
PDEBUG ("Process \%s\ has no ctl tty\n”, current->comm) ; 
return -EINVAL; 


} 


key = tty devnum(current->signal—>tty): 

/* look for a scullc device in the list */ 
spin lock(&scull c lock); 

dev = scull c lookfor device (key); 


spin unlock(&scull c lock); 


if (!dev) 
return —-ENOMEM; 


/* then, everything else is copied from the bare scull device */ 
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这 个 release 方法 没有 做 特殊 的 事情 它 将 在 最 后 的 关闭 时 正常 地 释放 设备 ， 但 是 我 们 
不 选择 来 维护 一 个 open 计数 而 来 简化 对 驱动 的 测试 .如果 设备 在 最 后 的 关闭 被 释放 ， 你 
将 不 能 读 相 同 的 数据 在 写 入 设备 之 后 ， 除 非 一 个 后 台 进程 将 保持 它 打 开 . 例子 驱动 采用 了 
简单 的 方法 来 保持 数据 ， 以 便 在 下 一 次 打开 时 ， 你 会 发 现 它 在 那里 .设备 在 
scull cleanup 被 调用 时 释放 . 




















这 个 代码 使 用 通用 的 Linux 链表 机 制 ， 而 不 是 从 头 开始 实现 相同 的 功能 ，1inux 链表 在 
第 11 意 中 讨论 








这 里 是 /dev/scullpriv 的 release 实现 ， 它 结束 了 对 设备 方法 的 讨论 . 


static int scull c release(struct inode *inode, struct file *filp) 


{ 
/* 
*Nothing to do, because the device is persistent. 
xA real? cloned device should be freed on last close */ 


return 0; 


j 

6. 7. 快速 参考 

本 章 介 绍 了 下 面 的 符号 和 头 文件 : 
#include <linux/ioctl. h> 


声明 用 来 定义 ioctl 命令 的 宏 定 义 ， 当 前 被 “linux/fs.h> 包含. 





_IOC_NRBITS 

_IOC TYPEBITS 
_IOC SIZEBITS 
_IOC DIRBITS 





ioctl 命令 的 不 同位 段 所 使 用 的 位 数 . 还 有 4 个 宏 来 指定 MASK 和 4 个 指定 
SHIFT， 但 是 它们 主要 是 给 内 部 使 用 ，_I0OC_SIZEBIT 是 一 个 要 检查 的 重要 的 值 ， 因 
为 它 跨 体系 改变 . 

















_IOC NONE 
TOC READ 
TOC WRITE 








“方向 ”位 段 可 能 的 值 . “read” 和 “write” 是 不 同 的 位 并 且 可 相 或 来 指定 
read/write. 这 些 值 是 基于 0 m. 

_IOC(dir, type, nr, size) 

. [O(type, nr) 

. [OR (type, nr, size) 
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. [OW (type, nr, size) 
_IOWR (type, nr, size) 





用 来 创建 ioclt 命令 的 宏 定 义 . 


_IOC DIR (nr) 
. [OC TYPE (nr) 
_IOC_NR (nr) 

. [0C SIZE (nr) 


用 来 解码 一 个 命令 的 宏 定 义 ， 特 别 地 ， _I0C TYPE (nr) 是 IOC READ 和 
IOC WRITE 的 OR 结合 . 








include Xasm/uaccess. h> 
int access ok(int type, const void *addr, unsigned long size); 


检查 一 个 用 户 空间 的 指针 是 可 用 的 . access ok 返回 一 个 非 零 值 ， 如 果 应 当 人 允许 存 
取 . 


VERIFY READ 
VERIFY WRITE 


access ok 中 type 参数 的 可 能 取 值 . VERIFY WRITE 是 VERIFY READ 的 超 集 . 


#include Xasm/uaccess. h> 
int put_user (datum, ptr) ; 
int get_user (local, ptr); 
int  put_user (datum, ptr); 
int get user (local, ptr); 





用 来 存储 或 获取 一 个 数据 到 或 从 用 户 空间 的 宏 . 传送 的 字 节 数 依赖 sizeof Gptr). 
常规 的 版 本 调用 access ok ， 而 常规 版 本 ( put user 和 get user ) 假定 
access_ok 已 经 被 调用 了 . 





#include <linux/capability. h> 








定义 各 种 CAP_ 符号 ， 描 述 一 个 用 户 空间 进程 可 有 的 能 力 . 





int capable(int capability); 


返回 非 零 值 如 果 进 程 有 给 定 的 能 





Sinclude <linux/wait. h> 

typedef struct { /* ... */ } wait queue head t; 
void init waitqueue head(wait queue head t *«queue); 
DECLARE WAIT QUEUE HEAD (queue); 
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Linux 等 待 队列 的 定义 类 型 ， 一 个 wait queue head t 必须 被 明确 在 运行 时 使 用 
init waitqueue head 或 者 编译 时 使 用 DEVLARE WAIT QUEUE HEAD 进行 初始 化 . 














void wait event(wait queue head t q, int condition); 

int wait event interruptible(wait queue head t q, int condition); 

int wait event timeout(wait queue head t q, int condition, int time); 

int wait event interruptible timeout(wait queue head t q, int condition, int 
time); 




















使 进程 在 给 定 队 列 上 睡眠 ， 直 到 给 定 条 件 值 为 真 值 . 








void wake up(struct wait queue **q); 

void wake up interruptible(struct wait queue **q); 

void wake up nr(struct wait queue ***q, int nr); 

void wake up interruptible nr(struct wait queue **q, int nr); 
void wake up all(struct wait queue **q) ; 

void wake up interruptible all(struct wait queue kg); 

void wake up interruptible sync(struct wait queue **kq); 





唤醒 在 队列 q 上 睡眠 的 进程 ，_interruptible 的 形式 只 唤醒 可 中 断 的 进程 ， 正 常 
地 ， 只 有 一 个 互 斥 等 待 者 被 唤醒 ， 但 是 这 个 行为 可 被 nr 或 者 _all 形式 所 改变 . 
sync 版 本 在 返回 之 前 不 重新 调度 CPU. 





#include <linux/sched. h> 
set_current_state(int state); 





设置 当前 进程 的 执行 状态 .TASK_RUNNING 意味 着 它 已 经 运行 ， 而 睡眠 状态 是 
TASK INTERRUPTIBLE 和 TASK UNINTERRUPTIBLE. 


void schedule (void) ; 
选择 一 个 可 运行 的 进程 从 运行 队列 中 . 被 选中 的 进程 可 是 当前 进程 或 者 另外 一 个 . 


typedef struct ( /*... */ } wait queue t; 
init waitqueue entry(wait queue t *entry, struct task struct *task); 


wait queue t 类 型 用 来 放置 一 个 进程 到 一 个 等 待 队列 . 


void prepare to wait(wait queue head t *queue, wait queue t *wait, int state); 





void prepare to wait exclusive(wait queue head t *queue, wait queue t **wait, 
int state); 
void finish wait(wait queue head t *queue, wait queue t *wait); 














帮忙 函数 ， 可 用 来 编码 一 个 手工 睡眠 . 


void sleep on(wiat queue head t *queue) ; 
void interruptible sleep on(wiat queue head t **queue); 
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老式 的 不 推荐 的 函数 ， 它 们 无 条 件 地 使 当前 进程 睡眠 . 





#include <linux/poll. h> 
void poll wait(struct file *filp, wait queue head t *q, poll table *p); 








将 当前 进程 放 入 一 个 等 得 队列， 不 立刻 调度 ， 它 被 设计 来 被 设备 驱动 的 poll 方法 
使 用 . 


int fasync helper(struct inode *inode, struct file *filp, int mode, struct 
fasync struct **fa); 





N PHA, SEHE fasync 设备 方法 ，mode 参数 是 传递 给 方法 的 相同 的 值 ， 
而 fa 指针 指向 一 个 设备 特定 的 fasync struct *. 





void kill fasync(struct fasync struct *fa, int sig, int band); 


如 果 这 个 驱动 支持 异步 通知 ， 这 个 函数 可 用 来 发 送 一 个 信号 到 登记 在 fa 中 的 进程 . 





int nonseekable open(struct inode *inode, struct file *filp); 
loff t no llseek(struct file *file, loff t offset, int whence); 





nonseekable open 应 当 在 任何 不 支持 移 位 的 设备 的 open 方法 中 被 调用 . 这样 的 
设备 应 当 使 用 no_llseek 作为 它们 的 llseek 方法 . 
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第 7 章 时 间 ， 延 时 ， 和 延 后 工作 


到 此 ， 我 们 知道 了 如 何 编写 一 个 全 特性 字符 模块 的 基本 知识 ， 真 实 世 界 的 驱动 ， 然 而 ， 需 
要 做 比 实现 控制 一 个 设备 的 操作 更 多 的 事情 ; 它们 不 得 不 处 理 诸如 定时 ， 内 存 管 理 ， 硬 件 
存 取 ， 等 更 多 .下 运 的 是 ， 内 核 输 出 了 许多 设施 来 简化 驱动 编写 者 的 任务 ， 在 下 儿 半 中， 
我 们 将 描述 一 些 你 可 使 用 的 内 核资 源 ， 这 一 章 引 路 ， 通 过 描述 定时 间 题 是 如 何 阐述 . 处理 
时 间 问 题 包括 下 列 任务 ， 按 照 复杂 度 上 升 的 顺序 : 





















































测量 时 间 流 失 和 比较 时 间 
知道 当前 时 间 

指定 时 间 量 的 延 时 操作 

调度 异步 函数 在 之 后 的 时 间 发 生 


E 








7.1. 测量 时 间 流 失 


内 核 通 过 定时 器 中 断 来 跟踪 时 间 的 流动 ， 中断 在 第 10 章 详 细 描述 . 








定时 器 中 断 由 系统 定时 硬件 以 规律 地 间隔 产生 ; 这 个 间隔 在 启动 时 由 内 核 根据 HZ 值 来 编 
fü, HZ 是 一 个 体系 依赖 的 值 ， 在 《linux/param. h> 中 定义 或 者 它 所 包含 的 一 个 子平 台 文 
件 中 ,在 发 布 的 内 核 源 码 中 的 缺 省 值 在 真实 硬件 上 从 50 到 1200 RERE, TEEPE 
器 中 往 下 到 24， 大 部 分 平台 运行 在 100 或 者 1000 中 断 每 秒 ; 流行 的 x86 PC dh 

1000， 尽 管 它 在 以 前 版 本 上 (向 上 直到 并 且 包 括 2. 4) 常 常 是 100， 作 为 一 个 通用 的 规则 ， 

即便 如 果 你 知道 HZ 的 值 ， 在 编程 时 你 应 当 从 不 依赖 这 个 特定 值 . 


























能 改变 HZ 的 值 ， 对 于 那些 要 系统 有 一 个 不 同 的 时 钟 中 断 频 率 的 人 ， 如 果 你 在 头 文件 中 
2: 你 需要 使 用 新 的 值 重 编译 内 核 和 所 有 的 模块 .如果 你 愿意 付出 额外 的 时 间 
中 断 的 代价 来 获得 你 的 目标 ， 你 可 能 想 提升 HZ 来 得 到 你 的 异步 任务 的 更 细 粒 度 的 精度 . 
实际 上 上， 提升 HZ 到 1000 在 使 用 2.4 或 2.2 内 核 版 本 的 x86 工业 系统 中 是 相当 普遍 
的 但是， 对 于 当前 版 本 ， 最 好 的 方法 是 保持 HZ 的 缺 省 值 ， 由 于 我 们 完全 信任 内 核 开 发 
者 ， 他 们 背 定 已 经 选择 了 最 好 的 值 . 另外 ， 一 些 内 部 计算 当前 实现 为 只 为 从 12 到 1535 
范围 的 HZ ( 见 <linux/timex.h> 和 RFC-1589). 
































每 次 发 生 一 个 时 钟 中 断 ， 一 个 内 核 计 数 器 的 值 递增 ， 这 个 计数 器 在 系统 启动 时 初始 化 为 0， 
因此 它 代 表 从 最 后 一 次 启动 以 来 的 时 钟 暗 叭 的 数目 .这 个 计数 器 是 一 个 64- 位 变量 ( 即 
便 在 32- 位 的 体系 上 ) 并 且 称 为 jiffies_64. 但 是 ， 驱 动 编写 者 正常 地 存 取 jiffies 变 
量 ， 一 人 oie long， 或 者 和 jiffies_64 是 同一 个 或 者 它 的 低 有 效 位 ， 使 用 
jiffies 常常 是 首选 ， 因 为 它 更 快 ， 并 且 再 所 有 的 体系 上 存 取 64- 位 的 jiffies 64 值 不 
必要 是 原子 的 . 



































除了 低 精 度 的 内 核 管理 的 jiffy 机 制 ， 一 些 CPU 平台 特有 一 个 高 精度 的 软件 可 读 的 计数 
器 ， 尽管 它 的 实际 使 用 有 些 在 各 个 平台 不 同 ， E A 


7.1.1. 使 用 jiffies 计数 器 
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这 个 计数 器 和 来 读 取 它 的 实用 函数 位 于 《linux/jiffies.h>， 尽 管 你 会 常常 只 是 包含 
<linux/sched. h>， 它 会 自动 地 将 jiffies.h 拉 进 来 ， 不 用 说 ，jiffies 和 jiffies 64 
必须 当 作 只 读 的 . 











无 论 何 时 你 的 代码 需要 记 住 当前 的 jiffies 值 ， 可 以 简单 地 存 取 这 个 unsigned long 变 
量 ， 它 被 声明 做 volatile 来 告知 编译 器 不 要 优化 内 存 读 ， 你 需要 读 取 当前 的 计数 器 ， 无 
论 何 时 你 的 代码 需要 计算 一 个 将 来 的 时 间 戳 ， 如 下 面 例子 所 示 : 














#include <linux/jiffies. h> 
unsigned long j, stamp 1, stamp half, stamp n; 


j = jiffies; /* read the current value */ 

stamp 1 = j + HZ; /* 1 second in the future */ 
stamp half = j + HZ/2; /* half a second */ 
stamp n = j +n * HZ / 1000; /* n milliseconds */ 














这 个 代码 对 于 jiffies 回 绕 没 有 问题 ， 只 要 不 同 的 值 以 正确 的 方式 进行 比较 .尽管 在 
32- 位 平台 上 当 HZ 是 1000 时 ， 计 数 器 只 是 每 50 天 回 绕 一 次 ， 你 的 代码 应 当 准 备 面 对 
这 个 事件 .为 比较 你 的 被 缓存 的 值 ( 象 上 面 的 stamp 1 ) 和 当前 值 ， 你 应 当 使 用 下 面 一 
个 宏 定义 : 





Sinclude <linux/jiffies. h> 

int time after (unsigned long a, unsigned long b); 

int time before(unsigned long a, unsigned long b); 
int time after eq(unsigned long a, unsigned long b); 
int time before eq(unsigned long a, unsigned long b); 


第 一 个 当 a， 作 为 一 个 jiffies 的 快照 ， 代 表 b 之 后 的 一 个 时 间 时 ， 取 值 为 真 ， 第 二 个 
当 时 间 a 在 时 间 b 之 前 时 取 值 为 真 ， 以 及 最 后 2 个 比较 “之 后 或 相同 “和 “之 前 或 相同 “. 
这 个 代码 工作 通过 转换 这 个 值 为 signed long， 减 它们 ， 并 且 比 较 结果 . 如 果 你 需要 以 一 
种 安全 的 方式 知道 2 个 jiffies 实例 之 间 的 差 ， 你 可 以 使 用 同样 的 技巧 : diff = 
(long)t2 - (long)tl;. 














你 可 以 转换 一 个 jiffies 差 为 毫秒 ， 一 般 地 通过 : 


msec = diff * 1000 / HZ: 











有 时 ， 但 是 ， 你 需要 与 用 户 空间 程序 交换 时 间 表 示 ， 它 们 打算 使 用 struct timeval 和 
struct timespec 来 表示 时 间 ， 这 2 个 结构 代表 一 个 精确 的 时 间 量 ， 使 用 2 个 成 员 : 
seconds 和 microseconds 在 旧 的 流行 的 struct timeval 中 使 用 ，seconds 和 
nanoseconds 在 新 的 struct timespec 中 使 用 .内核 输 出 4 个 帮助 函数 来 转换 以 
jiffies 表达 的 时 间 值 ， 到 和 从 这 些 结构 : 























Hinclude Xlinux/time. h> 

unsigned long timespec to jiffies(struct timespec *value); 

void jiffies to timespec(unsigned long jiffies, struct timespec *value); 
unsigned long timeval to jiffies(struct timeval *value); 
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void jiffies to timeval(unsigned long jiffies, struct timeval *value); 


存 取 这 个 64- 位 jiffy 计数 值 不 象 存 取 jiffies 那样 直接 ， 而 在 64- 位 计算 机 体系 上 
这 2 个 变量 实际 上 是 一 个 ， 存 取 这 个 值 对 于 32- 位 处 理 器 不 是 原子 的 ， 这 意味 着 你 可 能 
读 到 错误 的 值 如 果 这 个 变量 的 两 半 在 你 正在 读 取 它们 时 被 更 新 ， 极 不 可 能 你 会 需要 读 取 这 
个 64- 位 计数 器 ， 但 是 万 一 你 需要 ， 你 会 高 兴 地 得 知 内 核 输出 了 一 个 特别 地 帮助 函数 ， 
为 你 完成 正确 地 加 锁 : 
































Hinclude <linux/jiffies. h> 
u64 get jiffies 64(void); 








在 上 面 的 原型 中 ， 使 用 了 u64 类 型 . 这 是 一 个 定义 在 《linux/types.h> 中 的 类 型 ， 在 
11 章 中 讨论 ， 并 且 表 示 一 个 unsigned 64- 位 类 型 . 





如 果 你 在 奇怪 32- 位 平台 如 何 同时 更 新 32- 位 和 64- 位 计数 器 ， 读 你 的 平台 的 连接 脚 
本 ( 查找 一 个 文件 ， 它 的 名 子 匹 配 valinux#. 1ds*)， 在 那里 ，jiffies 符号 被 定义 来 存 
取 这 个 64- 位 值 的 低 有 效 字 ， 根 据 平台 是 小 端 或 者 大 端 ， 实际 上 上， 同样 的 技巧 也 用 在 
64- 位 平台 上 ， 因 此 这 个 unsigned long 和 u64 变量 在 同一 个 地 址 被 存 取 . 























最 后 ， 注 意 实 际 的 时 钟 频率 几乎 完全 对 用 户 空 间 隐 藏 . 宏 HZ 一 直 扩 展 为 100 当 用 户 空 
间 程 序 包含 param h， 并 且 每 个 报告 给 用 户 空 间 的 计数 器 都 对 应 地 被 转换 ， 这 应 用 于 
clock (3)，times (2)， 以 及 任何 相关 的 函数 .对 HZ 值 的 用 户 可 用 的 唯一 证 据 是 时 钟 中 断 
多 快 发 生 ， 如 在 /proc/interrupts 所 显示 的 . 例如， 你 可 以 获得 HZ， 通 过 用 在 
/proc/uptime 中 报告 的 系统 uptime 除 这 个 计数 值 . 


7. 1. 2， 处 理 器 特定 的 寄存 器 


如 果 你 需要 测量 非常 短 时 间 间 隔 ， 或 者 你 需要 非常 高 精度 ， 你 可 以 借助 平台 依赖 的 资源 ， 
一 个 要 精度 不 要 移植 性 的 选择 . 





















































在 现代 处 理 器 中 ， 对 于 经 验 性 能 数字 的 迫切 需求 被 大 部 分 CPU 设计 中 内 在 的 指令 定时 不 
确定 性 所 阻碍 ， 这 是 由 于 缓存 内 存 ， 指 令 调 度 ， 以 及 分 支 预测 引起 ， 作 为 回应 ，CPU 制造 
商 引 入 一 个 方法 来 计数 时 钟 周期 ， 作 为 一 个 容易 并 且 可 靠 的 方法 来 测量 时 间 流 失 ， 因 此 ， 
大 部 分 现代 处 理 器 包含 一 个 计数 器 寄存 器 ， 它 在 每 个 时 钟 周期 固定 地 递增 一 次 ， 现 在 ， 资 
格 时 钟 计 数 器 是 唯一 可 靠 的 方法 来 进行 高 精度 的 时 间 管 理 任 务 . 
































c 























细节 每 个 平台 不 同 : 这 个 寄存 器 可 以 或 者 不 可 以 从 用 户 空 间 可 读 ， 它 可 以 或 者 不 可 以 写 ， 
并 且 它 可 能 是 64 或 者 32 位 宽 . 在 后 一 种 情况 ， 你 必须 准备 处 理 溢出 ， 就 象 我 们 处 理 
jiffy 计数 器 一 样 ， 这 个 寄存 器 甚至 可 能 对 你 的 平台 来 说 不 存在 ， 或 者 它 可 能 被 硬件 设计 
者 在 一 个 外 部 设备 实现 ， 如 果 CPU 缺少 这 个 特性 并 且 你 在 使 用 一 个 特殊 用 途 的 计算 机 . 





























无 论 是 否 寄存 器 可 以 被 清 零 ， 我 们 强烈 不 鼓励 复位 它 ， 即 便当 硬件 允许 时 ， 毕 竞 ， 在 任何 
给 定时 间 你 可 能 不 是 这 个 计数 器 的 唯一 用 户 ; 在 一 些 文 持 SMP 的 平台 上 ， 例 如 ， 内 核 依 
赖 这 样 一 个 计数 器 来 在 处 理 器 之 间 同 步 ， 因 为 你 可 以 一 直 测 量 各 个 值 的 差 ， 只 要 差 没 有 超 
过 洪 出 时 间 ， 你 可 以 通过 修改 它 的 当前 值 来 做 这 个 事情 不 用 声明 独自 拥有 这 个 寄存 器 . 
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最 有 名 的 计数 器 寄存 器 是 TSC ( timestamp counter), Æ x86 处 理 器 中 随 Pentium 5| 
入 的 并 且 在 所 有 从 那 之 后 的 CPU 中 出 现 一 包括 x86 64 FE. 它 是 一 个 64- 位 寄存 器 
计数 CPU 的 时 钟 周 期 ; 它 可 从 内 核 和 用 户 空 间 读 取 . 








在 包含 了 《asm/msr.h> (一 个 x86- 特 定 的 头 文 件 ， 它 的 名 子 代表 machine-specific 
registers”)， 你 可 使 用 一 个 这 些 宏 : 








rdtsc (low32, high32) ; 
rdtscl(10ow32); 
rdtscll(var64); 


第 一 个 宏 自 动 读 取 64-4v. 值 到 2 个 32- 位 变量 ; 下 一 个 ( read low half) 读 取 寄存 
器 的 低 半 部 到 一 个 32- 位 变量 ， 丢 弃 高 半 部 ; 最 后 一 个 读 64- 位 值 到 一 个 long long 
变量 ， 由 此 得 名 .所 有 这 些 宏 存 储 数值 到 它们 的 参数 中 . 














对 大 部 分 的 TSC 应 用 ， 读 取 这 个 计数 器 的 的 低 半 部 足够 了 .一 个 1-GHz 的 CPU 只 在 每 
4.2 秒 溢出 一 次 ， 因 此 你 不 会 需要 处 理 多 寄存 器 变量 ， 如 果 你 在 使 用 的 时 间 流 失 确 定 地 使 
用 更 少时 间 . 但 是 ， 随 着 CPU 频率 不 断 上 升 以 及 定时 需求 的 提高 ， 将 来 你 会 几乎 可 能 需 
要 常常 读 取 64- 位 计数 器 . 






























































作为 一 个 只 使 用 寄存 器 低 半 部 的 例子 ， 下 面 的 代码 行 测量 了 指令 自身 的 执行 : 





unsigned long ini, end; 
rdtscl(ini); rdtscl(end); 
printk( time lapse: %li\n”, end - ini); 


一 些 其 他 的 平台 提供 相似 的 功能 ， 并 且 内 核 头 文件 提供 一 个 体系 独立 的 功能 ， 你 可 用 来 代 
替 rdtsc， 它 称 为 get_cycles， 定 义 在 《asm/timex.h>( H <linux/timex. h 包含 ). 
它 的 原型 是 : 





#include <linux/timex. h> 
cycles_t get_cycles (void); 


这 个 函数 为 每 个 平台 定义 ， 并 且 它 一 直 返 回 0 在 没有 周期 -计数 器 寄存 器 的 平台 上 . 
cycles t 类 型 是 一 个 合适 的 unsigned 类 型 来 持 有 读 到 的 值 . 


不 论 一 个 体系 独立 的 函数 是 否 可 用 ， 我 们 最 好 利用 机 会 来 展示 一 个 内 联 汇编 代码 的 例子 . 
为 此 ， 我 们 实现 一 个 rdtscl 函数 给 MIPS 处 理 器 ， 它 与 在 x86 上 同样 的 方式 工作 . 








拖 尾 的 nop 指令 被 要 求 来 阻止 编译 器 在 mfc0 之 后 马上 存 取 指令 中 的 目标 寄存 器 ， 这 种 
内 部 锁 在 RISC 处 理 器 中 是 典型 的 ， 并 且 编 译 器 仍然 可 以 在 延迟 时 隙 中 调度 有 用 的 指令 . 
在 这 个 情况 中 ， 我 们 使 用 nop 因为 内 联 汇编 对 编译 器 是 一 个 黑 盒 并 且 不 会 进行 优化 . “” 




















Hdefine rdtscl(dest) \ 











26 [26] 











我 们 在 MIPS 上 建立 这 例子 ， 因 为 大 部 分 的 MIPS 处 理 器 特有 一 个 32- 位 计数 器 作为 它们 内 部 “ 协 处 理 器 0 的 寄 
存 器 9， 为 存 取 这 个 寄存 器 ， 仅 仅 从 内 核 空间 可 读 ， 你 可 以 定义 下 列 的 宏 来 执行 一 条 “从 协 处 理 器 0 转移 “的 汇编 指令 . 
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| asm volatile (mfc0 %0, $9; nop" : “=r” (dest)) 





有 这 个 宏 在 ，MIPS 处 理 器 可 以 执行 同样 的 代码 ， 如 同 前 面 为 x86 展示 的 一 样 的 代码 . 








使 用 gcc 内 联 汇编 ， 通 用 寄存 器 的 分 配 留 给 编译 器 ， 刚 刚 展示 的 这 个 宏 使 用 %0 作为 “ 参 
数 0 的 一 个 占 位 符 ， 之 后 它 被 指定 为 “任何 用 作 输 出 ( = ) 的 寄存 器 ( r )”. 这 个 宏 还 声 
明 输 出 寄存 器 必须 对 应 C 表达 式 dest， 内 联 函数 的 语法 是 非常 强大 但 是 有 些 复 杂 ， 特 别 
对 于 那些 有 限制 每 个 寄存 器 可 以 做 什么 的 体系 上 (就 是 说 ，x86 家 族 )， 这 个 用 法 在 gcc 
文档 中 描述 ， 常 常 在 info 文档 目录 树 中 有 . 
































本 节 已 展示 的 这 个 简短 的 C- 代 码 片 段 已 在 一 个 K7- 级 x86 处 理 器 和 一 个 MIPS VR4181 
( 使 用 刚刚 描述 过 的 宏 ) 上 运行 ， 前 者 报告 了 一 个 11 个 时 钟 咬 幢 的 时 间 流 失 而 后 者 只 是 
2 ^p ep SE. 小 的 数字 是 期 望 的 ， 因 为 RISC 处 理 器 常常 每 个 时 钟 周期 执行 一 条 指令 . 



































有 另 一 个 关于 时 戳 计 数 器 的 事情 值得 知道 : 它们 在 一 个 SMP 系统 中 不 必要 跨 处 理 器 同步 . 
为 保证 得 到 一 个 一 致 的 值 ， 你 应 当 为 查询 这 个 计数 喜 的 代码 蔡 止 抢占 . 


7. 2， 获 知 当前 时 间 


内 核 代 码 能 一 直 获 取 一 个 当前 时 间 的 表示 ， 通 过 查看 jifies 的 值 .常常 地 ， 这 个 值 只 代 
表 从 最 后 一 次 启动 以 来 的 时 间 ， 这 个 事实 对 驱动 来 说 无 关 ， 因 为 它 的 生命 周期 受 限于 系统 
的 uptime. 如 所 示 ， 驱 动 可 以 使 用 jiffies 的 当前 值 来 计算 事件 之 间 的 时 间 间 隔 (例如 ， 
在 输入 驱动 中 从 单 击 中 区 分 双击 或 者 计算 超时 ). 简单 地 讲 ， 俘 看 jiffies 几乎 一 直 是 足 
够 的 ， 当 你 需要 测量 时 间 间 隔 . 如 果 你 需要 对 短 时 间 流 失 的 非常 精确 的 测量 ， 处 理 器 特定 
的 寄存 器 来 帮忙 了 〈 尽管 它们 带 来 严重 的 移植 性 问题 ) 
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它 是 非常 不 可 能 一 个 驱动 会 需要 知道 墙 上 时 钟 时 间 ， 以 月 ， 天 ， 和 小 时 来 表达 的 ; 这 个 信 
息 常 常 上 只 对 用 户 程序 需要 ， 例 如 cron 和 syslogd. 处 理 真实 世界 的 时 间 常 常 最 好 留 给 用 
户 空间 ， 那 里 的 C 库 提 供 了 更 好 的 文 持 ; 另外， 这 样 的 代码 常常 太 策略 相关 以 至 于 不 属 
于 内 核 ， 有 一 个 内 核 函 数 转变 一 个 墙 上 时 钟 时 间 到 一 个 jiffies 值 ， 但 是 : 




















Sinclude <linux/time. h> 

unsigned long mktime (unsigned int year, unsigned int mon, 
unsigned int day, unsigned int hour, 

unsigned int min, unsigned int sec); 











重复 :直接 在 驱动 中 处 理 墙 上 时 钟 时 间 往 往 是 一 个 在 实现 策略 的 信号 ， 并 且 应 当 因此 而 被 


FUSE. 

















虽然 你 不 会 一 定 处 理 人 可 读 的 时 间 表 示 ， 有 时 你 需要 甚至 在 内 核 空间 中 处 理 绝 对 时 间 .， 为 
JE, <linux/time. h> 输出 了 do gettimeofday 函 数 . 当 被 调用 时 ， 它 填充 一 个 struct 
timeval 指针 -- 和 在 gettimeofday 系统 调用 中 使 用 的 相同 一 使 用 类 似 的 秒 和 之 秒 值 . 
do_gettimeofday 的 原型 是 : 














&include <linux/time. h> 
void do _gettimeofday (struct timeval *tv); 
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这 段 源 代码 声明 do gettimeofday 有 ”接近 毫秒 的 精度 ”， 因 为 它 询 问 时 间 人 硬件 当前 
jiffy 多 大 比例 已 经 流失 .这 个 精度 每 个 体系 都 不 同 ， 但 是 ， 因 为 它 依 赖 实际 使 用 中 的 人 硬 
件 机 制 ， 例 如 ， 一 些 m68knommu 处 理 器 ，Sun3 系统 ， 和 其 他 m68k 系统 不 能 提供 大 于 
jiffy 的 精度 ，Pentium 系统 ， 男 一 方面 ， 提 供 了 非常 快速 和 精确 的 小 于 咬 叭 的 测量 ， 通 
过 读 取 本 章 前 面 描述 的 时 惟 计 数 器 . 






































~ 











当前 时 间 也 可 用 ( 尽管 使 用 jiffy 的 粒度 ) 来 自 xtime 变量 ， 一 个 struct timespec 
值 . 不 鼓励 这 个 变量 的 直接 使 用 ， 因 为 难以 原子 地 同时 存 取 这 2 个 字段 . 因此 ， 内 核 提 
供 了 实用 函数 current kernel time: 














Sinclude <linux/time. h> 
struct timespec current kernel time (void); 




















用 来 以 各 种 方式 获取 当前 时 间 的 代码 ， 可 以 从 由 0 Reilly 提供 的 FTP 网 站 上 的 源码 文 
件 的 jit ("just in time") 模块 获得 .jit 创建 了 一 个 文件 称 为 /proc/currentime, 
当 读 取 时 ， 它 以 ASCII 码 返回 下 列 项 : 





。 当前 的 jiffies 和 jiffies 64 fü, UA 16 进 制 数 的 形式 . 
。 如 同 do gettimeofday 返回 的 相同 的 当前 时 间 . 
e 由 current kernel time 返回 的 timespec. 











我 们 选择 使 用 一 个 动态 的 /proc 文件 来 保持 样板 代码 为 最 小 一 它 不 值得 创建 一 整个 设 
备 只 是 返回 一 点 儿 文 本 信息 . 








这 个 文件 连续 返回 文本 行 只 要 这 个 模块 加 载 着 ; 每 次 read 系统 调用 收集 和 返回 一 套数 据 ， 
为 更 好 阅读 而 组 织 为 2 行 ， 无论 何 时 你 在 少 于 一 个 时 钟 吐 蚊 内 读 多 个 数据 集 ， 你 将 看 到 
do gettimeofday 之 间 的 差别 ， 它 询问 硬件 ， 并 且 其 他 值 仅 在 时 钟 咬 味 时 被 更 新 . 








phon% head -8 /proc/currentime 

0x00bdbclf 0x0000000100bdbclf 1062370899. 630126 
1062370899. 629161488 

O0xOO0bdbclf 0x0000000100bdbclf 1062370899. 630150 
1062370899. 629161488 

0xO0O0bdbc20 0x0000000100bdbc20 1062370899. 630208 
1062370899. 630161336 

0xO00bdbc20 0x0000000100bdbc20 1062370899. 630233 
1062370899. 630161336 








在 上 面 的 屏幕 快照 中 ， 由 2 件 有 趣 的 事情 要 注意 .首先 ， 这 个 current kernel time 值 ， 
REAPER, RARER; do_gettimeofday 持续 报告 一 个 稍 晚 的 时 间 但 
ENRE FAE. 第 二 ， 这 个 64- 位 的 jiffies 计数 器 有 高 32- 位 字 集 合 的 最 
低 有 效 位 ， 这 是 由 于 INITIAL JIFFIES 的 缺 省 值 ， 在 启动 时 间 用 来 初始 化 计数 器 ， 在 启 

动 时 间 后 几 分 钟 内 强加 一 个 低 字 溢 出 来 帮助 探测 与 这 个 刚好 溢出 相关 的 问题 . 这 个 在 计数 
器 中 的 初始 化 偏好 没有 效果 ， 因 为 jiffies 与 墙 上 时 钟 时 间 无 关 ， 在 /proc/uptime 中 ， 

这 里 内 核 从 计数 器 中 抽取 uptime， 初 始 化 偏好 在 转换 前 被 去 除 . 


7. 3， 延 后 执行 
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设备 驱动 常常 需要 延 后 一 段 时 间 执 行 一 个 特定 片段 的 代码 ， 常 常 允许 硬件 完成 某 个 任务 . 
在 这 一 节 我 们 涉及 许多 不 同 的 技术 来 获得 延 后 ， 每 种 情况 的 环境 决定 了 使 用 哪 种 技术 最 好 ; 
我 们 全 都 仔细 检查 它们 ， 并 且 指 出 每 一 个 的 长 处 和 缺点 . 


























一 件 要 考虑 的 重要 的 事情 是 你 需要 的 延 时 如 何 与 时 钟 吐 蚊 比较 ， 考 虑 到 HZ 的 跨 各 种 平台 
的 范围 ， 那 种 可 靠 地 比 时钟 咬 鸣 长 并 且 不 会 受 损 于 它 的 粗 粒度 的 延 时 ， 可 以 利用 系统 时 钟 . 
每 个 短 延 时 典型 地 必须 使 用 软件 循环 来 实现 . 在 这 2 种 情况 中 存在 一 个 灰色 地 带 ， 在 本 

章 ， 我 们 使 用 短语 ”long ” 延 时 来 指 一 个 多 jiffy 延 时 ， 在 一 些 平台 上 它 可 以 如 同 儿 个 
毫秒 一 样 少 ， 但 是 在 CPU 和 内 核 看 来 仍然 是 长 的 . 























下 面 的 几 节 讨论 不 同 的 延 时 ， 通 过 采用 一 些 长 路 径 ， 从 各 种 直觉 上 不 适合 的 方法 到 正确 的 
方法 .我 们 选择 这 个 途径 因为 它 允 许 对 内 核 相关 定时 方面 的 更 深入 的 讨论 ， 如 果 你 急于 找 
出 正确 的 代码 ， 只 要 快速 浏览 本 节 . 

7. 3. 1， 长 延 时 


偶尔 地 ， 一 个 驱动 需要 延 后 执行 相对 长 时 间 一 多 于 一 个 时 钟 咬 忠 ， 有 几 个 方法 实现 这 类 
延 时 ; 我 们 从 最 简单 的 技术 开始 ， 接 着 进入 到 高 级 些 的 技术 . 


7.3.1.1. 忙 等 待 





















































如 果 你 想 延 时 执行 多 个 时 钟 咬 叶 ， 允 许 在 值 中 某 些 柚 忽 ， 最 容易 的 ( 尽管 不 推荐 ) 的 实 
现 是 一 个 监视 jiffy 计数 器 的 循环 .这 种 忙 等 待 实现 常常 看 来 象 下 面 的 代码 ， 这 里 jl 
是 jiffies 的 在 延 时 超时 的 值 : 











while (time before(jiffies, j1)) 
cpu relax(); 








对 cpu relex 的 调用 使 用 了 一 个 特定 于 体系 的 方式 来 说 ， 你 此 时 没有 在 用 处 理 器 做 事情 . 
在 许多 系统 中 它 根本 不 做 任何 事 ; 在 对 称 多 线程 (” 超 线程 ”) 系统 中 ， 可 能 让 出 核心 给 
其 他 线程 . 在 如 何 情况 下 ， 无 论 何 时 有 可 能 ， 这 个 方法 应 当 明 确 地 避免 ， 我 们 展示 它 是 因 
为 个 尔 你 可 能 想 运行 这 个 代码 来 更 好 理解 其 他 代码 的 内 幕 . 



































我 们 来 看 一 下 这 个 代码 如 何 工 作 ， 这 个 循环 被 保证 能 工作 因为 jiffies 被 内 核 头 文件 声 
明 做 易 失 性 的 ， 并 且 因此 ， 在 任何 时 候 C 代码 寻 址 它 时 都 从 内 存 中 获取 尽管 技术 上 正 
确 ( 它 如 同 设计 的 一 样 工 作 )， 这 种 忙 等 待 严 重地 降低 了 系统 性 能 ， 如 果 你 不 配置 你 的 内 
核 为 抢占 操作 ， 这 个 循环 在 延 时 期 间 完 全 锁 住 了 处 理 器 ; 调度 器 永远 不 会 抢占 一 个 在 内 核 
中 运行 的 进程 ， 并 且 计 算 机 看 起 来 完全 死 掉 直 到 时 间 jl 到 时 ， 这 个 问题 如 果 你 运行 一 个 
可 抢占 的 内 核 时 会 改善 一 点 ， 因 为 ， 除 非 这 个 代码 正 持 有 一 个 锁 ， 处 理 器 的 一 些 时 间 可 以 
被 其 他 用 途 获 得 .但 是 ， 忙 等 每 在 可 抢占 系统 中 仍然 是 昂贵 的 . 





















































更 坏 的 是 ， 当 你 进入 循环 时 如 果 中 断 碰巧 被 禁止 ，jiffies 将 不 会 被 更 新 ， 并 且 while 
条 件 永远 保持 真 ， 运行 一 个 抢占 的 内 核 也 不 会 有 帮助 ， 并 且 你 将 被 迫 去 击 打 大 红 按 钮 . 
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这 个 延 时 代码 的 实现 可 拿 到 ， 如 同 下 列 的 ， 在 jit 模块 中 ， 模 块 创 建 的 这 些 /proc/jit* 
文件 每 次 你 读 取 一 行文 本 就 延 时 一 整 秒 ， 并 且 这 些 行 保证 是 每 个 20 字 节 .如 果 你 想 测试 
忙 等 待 代码 ， 你 可 以 读 取 /proc/jitbusy， 每 当 它 返 回 一 行 它 忙 -循环 一 秒 . 














为 确保 读 ， 最 多 ， 一 行 ( 或 者 几 行 ) 一 次 从 /proc/jitbusy. 简化 的 注册 /proc 文件 的 
内 核 机 制 反 复 调用 read 方法 来 填充 用 户 请 求 的 数据 缓存 ， 因 此 ， 一 个 命令 ， 例 如 cat 
/proc/jitbusy， 如 果 它 一 次 读 取 4KB， 会 冻 住 计算 机 205 fh. 











推荐 的 读 /proc/jitbusy 的 命令 是 dd bs-200 < /proc/jitbusy， 可 选 地 同时 指定 块 数 
目 . 文件 返回 的 每 20- 字 节 的 行 表示 jiffy 计数 器 已 有 的 值 ， 在 延 时 之 前 和 延 时 之 后 
这 是 一 个 例子 运行 在 一 个 其 他 方面 无 负担 的 计算 机 上 : 





phon% dd bs-20 count-5 € /proc/jitbusy 
1686518 1687518 
1687519 1688519 
1688520 1689520 
1689520 1690520 
1690521 1691521 





看 来 都 挺 好 : 延 时 精确 地 是 1 秒 (1000 jiffies ), JEH F—^^ read 系统 调用 在 上 一 
个 结束 后 立刻 开始 .但 是 让 我 们 看 看 在 一 个 有 大 量 CPU- 密 集 型 进程 在 运行 (并且 是 非 抢占 
内 核 ) 的 系统 上 会 发 生 什 么 : 





M— 

















phon% dd bs-20 count-5 € /proc/jitbusy 
1911226 1912226 
1913323 1914323 
1919529 1920529 
1925632 1926632 
1931835 1932835 





这 里 ， 每 个 read 系统 调用 精确 地 延 时 1 秒 ， 但 是 内 核 耗费 多 过 5 秒 在 调度 dd 进程 以 
便 它 可 以 发 出 下 一 个 系统 调用 之 前 .在 一 个 多 任务 系统 就 期 望 是 这 样 ; CPU 时 间 在 所 有 运 
行 的 进程 间 共享 ， 并 且 一 个 CPU- 密 集 型 进程 有 它 的 动态 减少 的 优先 级 . C 调度 策略 的 讨 
论 在 本 书 范 围 之 外 ). 








上 面 所 示 的 在 负载 下 的 测试 已 经 在 运行 load50 例子 程序 中 进行 了 ， 这 个 程序 派生 出 许多 
什么 都 不 做 的 进程 ， 但 是 以 一 种 CPU- 密 集 的 方式 来 做 ， 这 个 程序 是 伴随 本 书 的 例子 文件 
的 一 部 分 ， 并 且 缺 省 是 派生 50 个 进程 ， 尽 管 这 个 数字 可 以 在 命令 行 指定 .在 本 章 ， 以 及 
在 本 书 其 他 部 分 ， 使 用 一 个 有 负载 的 系统 的 测试 已 经 用 load50 在 一 个 其 他 方面 空闲 的 计 
算 机 上 运行 来 进行 了 . 





如 果 你 在 运行 一 个 可 抢占 内 核 时 重复 这 个 命令 ， 你 会 发 现 没 有 显著 差别 在 一 个 其 他 方面 空 
WA CPU 上 以 及 下 面 的 在 负载 下 的 行为 : 
phon% dd bs-20 count-5 < /proc/jitbusy 

14940680 14942777 

14942778 14945430 
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14945431 14948491 
14948492 14951960 
14951961 14955840 


这 里 ， 没 有 显著 的 延 时 在 一 个 系统 调用 的 末尾 和 下 一 个 的 开始 之 间 ， 但 是 单独 的 延 时 远 远 
比 1 PRK: 直到 3.8 秒 在 展示 的 例子 中 并 且 随 时 间 上 升 . 这 些 值 显示 了 进程 在 它 的 延 时 
当中 被 中 断 ， 调 度 其 他 的 进程 ， 系 统 调用 之 间 的 间 际 不 是 唯一 的 这 个 进程 的 调度 选项 ， 
此 没有 特别 的 延 时 在 那里 可 以 看 到 . 


7.3.1.2. 让 出 处 理 器 





如 我 们 已 见 到 的 ， 忙 等 待 强加 了 一 个 重负 载 给 系统 总 体 ， 我 们 乐意 找 出 一 个 更 好 的 技术 . 
想到 的 第 一 个 改变 是 明确 地 释放 CPU 当 我 们 对 其 不 感 兴趣 时 ， 这 是 通过 调用 调度 函数 而 
实现 地 ， 在 《linux/sched.h> 中 声明 : 

















while (time before(jiffies，jl)) { 
schedule () ; 
} 


这 个 循环 可 以 通过 读 取 /proc/jitsched 如 同 我 们 上 面 读 /proc/jitbusy 一 样 来 测试 . 
但 是 ， 还 是 不 够 优化 ， 当 前 进程 除了 释放 CPU 不 作 任何 事情 ， 但 是 它 保留 在 运行 队列 中 . 
如 果 它 是 唯一 的 可 运行 进程 ， 实 际 上 它 运 行 ( 它 调用 调度 器 来 选择 同一 个 进程 ， 进 程 又 调 
用 调度 器 ， 这 样 下 去 )， 换 句 话说， 机 器 的 负载 ( 在 运行 的 进程 的 平均 数 ) 最 少 是 1， 并 
HEWES 〈 进程 号 0， 也 称 为 对 换 进 程 ， 由 于 历史 原因 ) 从 不 运行 . 尽管 这 个 问题 可 
能 看 来 无 关 ， 在 计算 机 是 空 亲 时 运行 空闲 任务 减轻 了 处 理 器 工作 负载 ， 降低 它 的 温度 以 及 
提高 它 的 生命 期 ， 同 时 电池 的 使 用 时 间 如 果 这 个 计算 机 是 你 的 膝 上 机 . 更 多 的 ， 因 为 进程 
实际 上 在 延 时 中 执行 ， 它 所 耗费 的 时 间 都 可 以 统计 . 















































/proc/jitsched 的 行为 实际 上 类 似 于 运行 /proc/jitbusy 在 一 个 抢占 的 内 核 下 ， 这 是 一 
个 例子 运行 ， 在 一 个 无 负载 的 系统 : 


phon% dd bs=20 count=5 < /proc/jitsched 
1760205 1761207 
1761209 1762211 
1762212 1763212 
1763213 1764213 
1764214 1765217 











有 趣 的 是 要 注意 每 次 read AI AZDRT EREEREER. A Te] BEBE: IR DE 
变 忙 会 变 得 越 来 越 坏 ， 并 且 了 驱动 可 能 结束 于 等 竺 长 于 期 望 的 时 间 . 一 旦 一 个 进程 使 用 调度 
来 释放 处 理 器 ， 无 法 保证 进程 将 使 回 处 理 器 在 任何 时 间 之 后 .因此 ， 以 这 种 方式 调用 调度 
器 对 于 张 动 的 需求 不 是 一 个 安全 的 解决 方法 ， 另 外 对 计算 机 系统 整体 是 不 好 的 .如果 你 在 
运行 load50 时 测试 jitsched， 你 可 以 见 到 关联 到 每 一 行 的 延 时 被 扩充 了 几 秒 ， 因 为 当 
定时 超时 的 时 候 其 他 进程 在 使 用 CPU . 
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7.3.1.3. 超时 


到 目前 为 止 所 展示 的 次 优化 的 延 时 循环 通过 查看 jiffy 计数 器 而 不 告诉 任何 人 来 工作 . 
但 是 最 好 的 实现 一 个 延 时 的 方法 ， 如 你 可 能 猜想 的 ， 常 常 是 请 求 内 核 为 你 做 .有 2 种 方 
法 来 建立 一 个 基于 jiffy 的 超时 ， 依 赖 于 是 否 你 的 驱动 在 等 待 其 他 的 事件 . 



























































如 果 你 的 驱动 使 用 一 个 等 竺 队列 来 等 待 某 些 其 他 事件 ， 但 是 你 也 想 确 保 它 在 一 个 确定 时 间 
段 内 运行 ， 可 以 使 用 wait event timeout 或 者 wait event interruptible timeout: 














#include <linux/wait. h> 
long wait event timeout(wait queue head t q, condition, long timeout); 





long wait event interruptible timeout(wait queue head t q, condition, long 
timeout); 








这 些 函 数 在 给 定 队列 上 睡眠 ， 但 是 它们 在 超时 (以 jiffies 表示 ) 到 后 返回 因此， 它们 
实现 一 个 限定 的 睡眠 不 会 一 直 睡 下 去 . 注意 超时 值 表 示 要 等 待 的 jiffies 数 ， 不 是 一 个 
绝对 时 间 值 ， 这 个 值 由 一 个 有 符号 的 数 表示 ， 因 为 它 有 时 是 一 个 相 减 运算 的 结果 ， 尽 管 这 
些 函 数 如 果 提 供 的 超时 值 是 负 值 通过 一 个 printk 语句 抱怨 ， 如 果 超 时 到 ， 这 些 函 数 返 回 
0; 如 果 这 个 进程 被 其 他 事件 唤醒 ， 它 返回 以 jiffies 表示 的 剩余 超时 值 ， 返 回 值 从 不 会 
是 负 值 ， 甚 至 如 果 延 时 由 于 系统 负载 而 比 期 望 的 值 大 . 



































/proc/jitqueue 文件 展示 了 一 个 基于 wait event interruptible timeout 的 延 时 ， 结 
果 这 个 模块 没有 事件 来 等 待 ， 并 且 使 用 0 作为 一 个 条 件 : 








wait queue head t wait; 
init waitqueue head (&wait); 
wait event interruptible timeout(wait, 0, delay); 








当 读 取 /proc/jitqueue 时 ， 观 察 到 的 行为 近乎 优化 的 ， 即 便 在 负载 下 : 


phon% dd bs-20 count-5 < /proc/jitqueue 
2027024 2028024 
2028025 2029025 
2029026 2030026 
2030027 2031027 
2031028 2032028 





因为 读 进程 当 等 待 超时 ( 上 面 是 dd ) 不 在 运行 队列 中 ， 你 看 不 到 表现 方面 的 差别 ， 无 论 
代码 是 否 运行 在 一 个 抢占 内 核 中 . 





wait event timeout 和 wait event interruptible timeout 被 设计 为 有 硬件 驱动 存在 ， 
这 里 可 以 用 任何 一 种 方法 来 恢复 执行 : 或 者 有 人 调用 wake up 在 等 竺 队列 上 ， 或 者 超时 
到 . 这 不 适用 于 jitqueue， 因 为 没 人 在 等 待 队列 上 调用 wake up ( 毕竟 ， 没 有 其 他 代码 
知道 它 )， 因 此 这 个 进程 当 超时 到 时 一 直 唤 醒 ， 为 适应 这 个 特别 的 情况 ， 这 里 你 想 延 后 执 
行 不 等 待 特定 事件 ， 内 核 提供 了 schedule timeout 函数 ， 因 此 你 可 以 避免 声明 和 使 用 一 
个 多 余 的 等 待 队列 头 : 
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#include Xlinux/sched. h> 
signed long schedule timeout (signed long timeout); 





XE, timeout 是 要 延 时 的 jiffies 数 . 返回 值 是 0 除非 这 个 函数 在 给 定 的 timeout 
流失 前 返回 ( 啊 应 一 个 信号 ) schedule timeout 请 求 调 用 者 首先 设置 当前 的 进程 状态 ， 
因此 一 个 典型 调用 看 来 如 此 : 








set current state(TASK INTERRUPTIBLE) ; 
schedule timeout (delay); 








前 面 的 行 ( 来 自 /proc/jitschedto ) 导致 进程 睡眠 直到 经 过 给 定 的 时 间 ， 因 为 

wait event interruptible timeout 在 内 部 依赖 schedule_timeout， 我 们 不 会 费劲 显示 
jitschedto 返回 的 数 ， 因 为 它们 和 jitqueue 的 相同 ， 再 一 次 ， 不 值得 有 一 个 额外 的 时 
间 间 隔 在 超时 到 和 你 的 进程 实际 被 调度 来 执行 之 间 . 




















在 刚刚 展示 的 例子 中 ， 第 一 行 调用 set current state 来 设 定 一 些 东 西 以 便 调度 器 不 会 
再 次 运行 当前 进程 ， 直 到 超时 将 它 置 回 TASK_RUNNING 状态 .为 获得 一 个 不 可 中 断 的 延 时 ， 
使 用 TASK UNINTERRUPTIBLE 代 检 .如 果 你 态 记 改变 当前 进程 的 状态 ， 调 用 

schedule time 如 同调 用 shcedule( 即 ，jitsched 的 行为 )， 建 立 一 个 不 用 的 定时 器 . 

















如 果 你 想 使 用 这 4 个 jit 文件 在 不 同 的 系统 情况 下 或 者 不 同 的 内 核 ， 或 者 尝试 其 他 的 方 
式 来 延 后 执行 ， 你 可 能 想 配置 延 时 量 当 加 载 模块 时 通过 设 定 延 时 模块 参数 . 


7.3.2. 短 延 时 


当 一 个 设备 驱动 需要 处 理 它 的 硬件 的 反应 时 间 ， 涉 及 到 的 延 时 常常 是 最 多 儿 个 毫秒 .在 这 
个 情况 下 ， 依 靠 时 钟 咬 咕 显然 不 对 路 . 




















The kernel functions ndelay, udelay, and mdelay serve well for short delays, 
delaying execution for the specified number of nanoseconds, microseconds, or 
milliseconds respectively.* Their prototypes are: * The u in udelay represents 
the Greek letter mu and stands for micro. 


内 核 函 数 ndelay，udelay， 以 及 mdelay 对 于 短 延 时 好 用 ， 分 别 延 后 执行 指定 的 纳 秒 数 ， 
微 秒 数 或 者 毫秒 数 ， 夺 "它们 的 原型 是 : 





#include <linux/delay. h> 

void ndelay (unsigned long nsecs); 
void udelay (unsigned long usecs); 
void mdelay (unsigned long msecs); 





这 些 函 数 的 实际 实现 在 “asm/delay.h>， 是 体系 特定 的 ， 并 且 有 时 建立 在 一 个 外 部 函数 上 . 
每 个 体系 都 实现 udelay， 但 是 其 他 的 函数 可 能 或 者 不 可 能 定义 ; 如 果 它 们 没有 定义 ， 
<linux/delay. h> 提供 一 个 缺 省 的 基于 udelay 的 版 本 .在 所 有 的 情况 中 ， 获 得 的 延 时 至 




















21 [21] 














udelay 中 的 u 表示 希腊 字母 mu 并 且 代 表 micro. 
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少 是 要 求 的 值 ， 但 可 能 更 多 ; 实际 上 ， 当 前 没有 平台 获得 了 纳 秒 的 精度 ， 尽 管 有 几 个 提供 
了 次 微 秒 的 精度 ， 延 时 多 于 要 求 的 值 通常 不 是 问题 ， 因 为 驱动 中 的 短 延 时 常常 需 
件 ， 并 且 这 个 要 求 是 等 待 至 少 一 个 给 定 的 时 间 流 失 . 





























udelay 的 实现 ( 可 能 ndelay 也 是 ) 使 用 一 个 软件 循环 基于 在 启动 时 计算 的 处 理 器 速度 ， 
使 用 整数 变量 loos per jiffy. 如 果 你 想 看 看 实际 的 代码 ， 但 是 ， 小 心 x86 实现 是 相当 
复杂 的 一 个 因为 它 使 用 的 不 同 的 时 间 源 ， 基 于 什么 CPU 类 型 在 运行 代码 




















为 避免 在 循环 计算 中 整数 溢出 ，udelay 和 ndelay 强加 一 个 上 限 给 传递 给 它们 的 值 ， 如 
果 你 的 模块 无 法 加 载 和 显示 一 个 未 解决 的 符号 ， bad_udelay， 这 意味 着 你 使 用 太 大 的 参 
数 调用 udleay， 注意 ， 但 是 ， 编 译 时 检查 只 对 第 量 进行 并 且 不 是 所 有 的 平台 实现 它 ， 作 
为 一 个 通用 的 规则 ， 如 果 你 试图 延 时 几 干 纳 秒 ， 你 应 当 使 用 udelay 而 不 是 ndelay; 类 
似 地 ， 上 毫秒 规 模 的 延 时 应 当 使 用 mdelay 完成 而 不 是 一 个 更 细 粒 度 的 函数 . 






































重要 的 是 记 住 这 3 个 延 时 函数 是 忙 等 待 ， 其 他 任务 在 时 间 流失 时 不 能 运行 ， 因 此 ， 它 们 
重复 ， 尽 管 存 一 个 不 同 的 规模 上 ，jitbusy 的 做 法 ， 因 此 ， 这 些 函数 应 当 只 用 在 没有 实用 
itr ent. 














有 另 一 个 方法 获得 毫秒 (和 更 长 ) 延 时 而 不 用 涉及 到 忙 等 待 . 文件 《linux/delay.h> 声明 
这 些 函 数 : 


void msleep(unsigned int millisecs); 
unsigned long msleep interruptible(unsigned int millisecs); 
void ssleep(unsigned int seconds) 








前 2 个 函数 使 调用 进程 进入 睡眠 给 定 的 毫秒 数 ， 一 个 对 msleep 的 调用 是 不 可 中 断 的 ; 
你 能 确保 进程 睡眠 至 少 给 定 的 训 秒 数 ， 如 果 你 的 驱动 位 于 一 个 等 待 队列 并 且 你 想 唤 醒 来 打 
MEEI, EH] msleep interruptible. 从 msleep interruptible 的 返回 值 正 常 地 是 0; 
如 果 ， 但 是 ， 这 个 进程 被 提早 唤醒 ， 返 回 值 是 在 初始 请 求 睡 眠 周期 中 剩余 的 训 秒 数 ， 对 
ssleep 的 调用 使 进程 进入 一 个 不 可 中 断 的 睡眠 给 定 的 秒 数 . 















































通常 ， 如 果 你 能 够 容忍 比 请 求 的 更 长 的 延 时 ， 你 应 当 使 用 schedule timeout, msleep, 
或 者 ssleerp. 


7. 4， 内 核定 时 器 


无 论 何 时 你 需要 调度 一 个 动作 以 后 发 生 ， 而 不 阻塞 当前 进程 直到 到 时 ， 内 核定 时 器 是 给 你 
I LH. 这些 定 时 器 用 来 调度 一 个 函数 在 将 来 一 个 特定 的 时 间 执 行 ， 基 于 时 钟 吐 蚊 ， 并 且 
可 用 作 各 类 任务 ; 例如 ， 当 硬件 无 法 发 出 中 断 时 ， 碍 询 一 个 设备 通过 在 定期 的 间隔 内 检查 
它 的 状态 .其 他 的 内 核定 时 器 的 典型 应 用 是 关闭 软驱 马达 或 者 结束 男 一 个 长 期 终止 的 操作 . 
在 这 种 情况 下 ， 延 后 来 自 close 的 返回 将 强加 一 个 不 必要 (并 且 吓 人 的 ) 开销 在 应 用 程序 

E. 最 后 ， 内 核 自 身 使 用 定时 器 在 几 个 情况 下 ， 包 括 实 现 schedule timeout. 
































一 个 内 核定 时 器 是 一 个 数据 结构 ， 它 指导 内 核 执 行 一 个 用 户 定 义 的 浮 数 使 用 一 个 用 户 定 义 
的 参数 在 一 个 用 户 定 义 的 时 间 . 这 个 实现 位 于 《linux/timer.h> 和 kernel/timer.c 并 
且 在 “内 核定 时 器 “一 节 中 详细 介绍 . 
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被 调度 运行 的 函数 几乎 确定 不 会 在 注册 它们 的 进程 在 运行 时 运行 。 它 们 是 ， 相 反 ， 异 步 运 
行 ， 直 到 现在 ， 我 们 在 我 们 的 例子 驱动 中 已经 做 的 任何 事情 已 经 在 执行 系统 调用 的 进程 上 
下 文中 运行 ， 当 一 个 定时 器 运行 时 ， 但 是 ， 这 个 调度 进程 可 能 睡眠 ， 可 能 在 不 同 的 一 个 处 
理 器 上 运行 ， 或 者 很 可 能 已 经 一 起 退出 . 





























这 个 异步 执行 类 似 当 发 生 一 个 硬件 中 断 时 所 发 生 的 ( 这 在 第 10 章 详细 讨论 )， 实 际 上 ， 
内 核定 时 器 被 作为 一 个 软件 中 断 “ 的 结果 而 实现 ， 当 在 这 种 原子 上 下 文 运行 时 ， 你 的 代码 
易 受 到 多 个 限制 ， 定 时 器 函数 必须 是 原子 的 以 所 有 的 我 们 在 第 1 章 “ 自 旋 锁 和 原子 上 下 文 
“一 节 中 曾 讨 论 过 的 方式 ， 但 是 有 几 个 附加 的 问题 由 于 缺少 一 个 进程 上 下 文 而 引起 的 .我 
们 将 介绍 这 些 限 制 ; 在 后 续 章 节 的 几 个 地 方 将 再 次 看 到 它们 ， 循 环 被 调用 因为 原子 上 下 文 
的 规则 必须 认真 遵守 ， 否 则 系统 会 发 现 自 己 陷入 大 麻烦 中 . 























为 能 够 被 执行 ， 多 个 动作 需要 进程 上 下 文 . 当 你 在 进程 上 下 文 之 外 \ 即 ， 在 中 断 上 下 文 )， 
你 必须 遵守 下 列 规则 : 





。 没有 允许 存 取 用 户 空间 .因为 没有 进程 上 上 下文， 没有 和 任何 特定 进程 相关 联 的 到 用 
户 空间 的 途径 . 

。 这 个 current 指针 在 原子 态 没 有 意义 ， 并 且 不 能 使 用 因为 相关 的 代码 没有 和 已 被 
中 断 的 进程 的 联系 . 

。 不 能 进行 睡眠 或 者 调度 .原子 代码 不 能 调用 schedule 或 者 某 种 wait_event， 也 
不 能 调用 任何 其 他 可 能 睡眠 的 函数 . 例如， 调用 kmalloc(..., GFP KERNEL) 是 违 
犯规 则 的 ， 旋 标 也 必须 不 能 使 用 因为 它们 可 能 睡眠 . 


























内 核 代 码 能 够 告知 是 否 它 在 中 断 上 下 文中 运行 ， 通 过 调用 函数 in_interrupt ()， 它 不 要 
参数 并 且 如 果 处 理 器 当前 在 中 断 上 下 文 运行 就 返回 非 零 ， 要 么 人 硬件 中 断 要 么 软件 中 晰 . 

















一 个 和 in interrupt 相关 的 函数 是 in atomic O. 它 的 返回 值 是 非 零 无 论 何 时 调度 被 
禁止 ; 这 包含 便 件 和 软件 中 断 上 下 文 以 及 任何 持 有 自 旋 锁 的 时 候 .在 后 一 种 情况 ， 
current 可 能 是 有 效 的 ， 但 是 存 取 用 户 空间 被 禁止 ， 因 为 它 能 导致 调度 发 生 ， 无 论 何 时 你 
使 用 in interrupt O)， 你 应 当真 正 考虑 是 否 in atomic 是 你 实际 想 要 的 .2 个 函数 都 在 
<asm/hardirq.h> 中 声明 . 

















内 核定 时 器 的 另 一 个 重要 特性 是 一 个 任务 可 以 注册 它 本 身 在 后 面 时 间 重 新 运行 ， 这 是 可 能 
的 ， 因 为 每 个 timer list 结构 在 运行 前 从 激活 的 定时 器 链表 中 去 连接 ， 并 且 因此 能 够 马 
上 在 其 他 地 方 被 重新 连接 .尽管 反复 重新 调度 相同 的 任务 可 能 表现 为 一 个 无 意义 的 操作 ， 
有 时 它 是 有 用 的 .例如 ， 它 可 用 作 实 现 对 设备 的 查询 . 























也 值得 了 解 在 一 个 SMP 系统 ， 定 时 器 函数 被 注册 时 相同 的 CPU 来 执行 ， 为 在 任何 可 能 饼 
时 候 获 得 更 好 的 缓存 局 部 特性 .因此 ， 一 个 重新 注册 它 自 己 的 定时 器 一 直 运 行 在 同一 个 
CPU. 











不 应 当 被 扎 记 的 定时 器 的 一 个 重要 特性 是 ， 它 们 是 一 个 潜在 的 竞争 条 件 的 源 ， 即 便 在 一 个 
单 处 理 器 系统 ， 这 是 它们 与 其 他 代码 异步 运行 的 一 个 直接 结果 . 因此， 任何 被 定时 器 函数 
存 取 的 数据 结构 应 当 保护 避免 并 发 存 取 ， 要 么 通过 原子 类 型 ( 在 第 1 章 的 “原子 变量 ” 
TW) 要 么 使 用 自 旋 锁 ( 在 第 9 章 讨论 ). 


7. 4. 1， 定 时 器 API 
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内 核 提 供给 驱动 许多 函数 来 声明 ， 注 册 ， 以 及 去 除 内 核定 时 器 . 下 列 的 引用 展示 了 基本 的 
代码 块 : 











Sinclude Xlinux/timer. h> 
struct timer list 
{ 
/* ... */ 
unsigned long expires; 
void Ckfunction) (unsigned long); 
unsigned long data; 
}; 
void init timer(struct timer list *timer); 
struct timer list TIMER INITIALIZER( function, expires, data); 


void add timer(struct timer list * timer); 
int del timer(struct timer list * timer); 











这 个 数据 结构 包含 比 曾 展 示 过 的 更 多 的 字段 ， 但 是 这 3 个 是 打算 从 定时 器 代码 自身 以 外 
被 存 取 的 ， 这 个 expires 字段 表示 定时 占 期 望 运行 的 jiffies 值 ; 在 那个 时 间 ， 这 个 

function 函数 被 调用 使 用 data 作为 一 个 参数 .如 果 你 需要 在 参数 中 传递 多 项 ， 你 可 以 
捆绑 它们 作为 一 个 单个 数据 结构 并 且 传 递 一 个 转换 为 unsiged long 的 指针 ， 在 所 有 支持 
的 体系 上 的 一 个 安全 做 法 并 且 在 内 存 管 理 中 相当 普 训 ( 如 同 15 章 中 讨论 的 ). expires 
值 不 是 一 个 jiffies_64 项 因为 定时 器 不 被 期 望 在 将 来 很 久 到 时 ， 并 且 64- 位 操作 在 32- 
位 平台 上 慢 . 


















































这 个 结构 必须 在 使 用 前 初始 化 .这 个 步骤 保证 所 有 的 成 员 被 正确 建立 ， 包 括 那 些 对 调用 者 
不 透明 的 .初始 化 可 以 通过 调用 init timer 或 者 安排 TIMER INITIALIZER 给 一 个 静态 
结构 ， 根 据 你 的 需要 .在 初始 化 后 ， 你 可 以 改变 3 个 公共 成 员 在 调用 add timer Hj. 为 
在 到 时 前 禁止 一 个 已 注册 的 定时 器 ， 调 用 del timer. 




















jit 模块 包括 一 个 例子 文件 ，/proc/jitimer ( X "just in timer”)， 它 返回 一 个 头 文 
件 行 以 及 6 个 数据 行 ， 这 些 数据 行 表示 当前 代码 运行 的 环境 ， 第 一 个 由 读 文件 操作 产生 
并 且 其 他 的 由 定时 器 ， 下列 的 输出 在 编译 内 核 时 被 记录 : 





phon% cat /proc/jitimer 
time delta inirq pid cpu command 
33565837 0 0 1269 0 cat 


33565847 10 1 1271 0 sh 
33565857 10 1 1273 0 cppO 
33565867 10 1 1273 0 cppO 
33565877 10 1 1274 0 ccl 
33565887 10 1 1274 0 ccl 


在 这 个 输出 ，time 字段 是 代码 运行 时 的 jiffies fH, delta 是 自前 一 行 的 jiffies M 
变 值 ，inirq 是 由 in interrupt 返回 的 布尔 值 ，pid 和 command 指 的 是 当前 进程 ， 以 
及 cpu 是 在 使 用 的 CPU 的 数目 ( 在 单 处 理 器 系统 上 一 直 为 0). 
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如 果 你 读 /[proc/jitimer 当 系统 无 负载 时 ， 你 会 发 现 定时 器 的 上 下 文 是 进程 0， 空 闲 任 
务 ， 它 被 称 为 ”对 换 进程 "只 要 由 于 历史 原因 . 














用 来 产生 /proc/jitimer 数据 的 定时 器 是 缺 省 每 10 jiffies 运行 一 次 ， 但 是 你 可 以 在 
加 载 模块 时 改变 这 个 值 通过 设置 tdelay ( timer delay ) 参数 . 


下 面 的 代码 引用 展示 了 jit 关于 jitimer 定时 器 的 部 分 ， 当 一 个 进程 试图 读 取 我 们 的 文 
件 ， 我 们 建立 这 个 定时 器 如 下 : 





unsigned long j = jiffies; 
/* fill the data for our timer function */ 
data-^prevjiffies = j; 


data->buf = buf2; 
data->loops = JIT ASYNC LOOPS; 


/* register the timer */ 

data->timer. data = (unsigned long)data; 
data->timer. function = jit timer fn; 
data-^timer.expires = j + tdelay; /* parameter */ 
add timer (&data-^timer); 


/* wait for the buffer to fill */ 
wait event interruptible(data-»wait, !data-»loops); 


The actual timer function looks like this: 
void jit timer fn(unsigned long arg) 
[ 
struct jit data *data - (struct jit data *)arg; 
unsigned long j - jiffies; 
data->buf += sprintf(data-»buf, “%91i *31i %i %6i %i *sWn^, 
j, j - data->prevjiffies, in interrupt ? 1 : 0, 
current-?pid, smp processor id(), current-?comm); 
if (--data-^loops) { 
data-^timer.expires += tdelay; 
data-^prevjiffies = j; 
add timer (&data-^timer); 


| else 1 
wake up interruptible(&data-^wait); 
} 
} 


定时 器 API 包括 几 个 比 上 面 介绍 的 那些 更 多 的 功能 .， 下面 的 集合 是 完整 的 核 提 供 的 函数 
列表 : 


int mod timer(struct timer list *timer, unsigned long expires); 
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更 新 一 个 定时 器 的 超时 时 间 ， 使 用 一 个 超时 定时 器 的 一 个 普通 的 任务 (再 一 次 ， 关 
马达 软驱 定时 器 是 一 个 典型 例子 ). mod timer 也 可 被 调用 于 非 激 活 定时 器 ， 那 里 
你 正常 地 使 用 add timer. 














int del timer sync (struct timer list *timer); 


如 同 del timer 一 样 工作 ， 但 是 还 保证 当 它 返回 时 ， 定 时 器 函数 不 在 任何 CPU 上 
运行 ， del_timer_sync 用 来 避免 竞争 情况 在 SMP 系统 上 ， 并 且 在 UP 内 核 中 和 
del timer 相同 ， 这 个 函数 应 当 在 大 部 分 情况 下 比 del timer 更 首先 使 用 .这 个 
函数 可 能 睡眠 如 果 它 被 从 非 原子 上 下 文 调用 ， 但 是 在 其 他 情况 下 会 忙 等 待 ， 要 十 分 
小 心 调用 del timer sync 当 持 有 锁 时 ;如 果 这 个 定时 器 函数 试图 获得 同一 个 锁 ， 
系统 会 死 锁 ， 如 果 定 时 器 函数 重新 注册 自己 ， 调 用 者 必须 首先 确保 这 个 重新 注册 不 
会 发 生 ; 这 常常 同 设置 一 个 ”关闭 “标志 来 实现 ， 这 个 标志 被 定时 器 函数 检查 . 















































int timer pending(const struct timer list * timer); 








返回 真 或 假 来 指示 是 否定 时 器 当前 被 调度 来 运行 ， 通 过 调用 结构 的 其 中 一 个 不 透明 
的 成 员 . 


7. 4. 2， 内 核定 时 器 的 实现 


为 了 使 用 它们 ， 尽 管 你 不 会 需要 知道 内 核定 时 器 如 何 实现 ， 这 个 实现 是 有 趣 的 ， 并 且 值 得 
看 一 下 它们 的 内 部 . 














定时 器 的 实现 被 设计 来 符合 下 列 要 求 和 假设 : 





定时 器 管理 必须 尽 可 能 简化 . 
设计 应 当 随 着 激活 的 定时 器 数目 上 升 而 很 好 地 适应 . 

大 部 分 定时 器 在 几 秒 或 最 多 几 分 钟 内 到 时 ， 而 带 有 长 延 时 的 定时 器 是 相当 少见 . 
一 个 定时 器 应 当 在 注册 它 的 同一 个 CPU 上 运行 





























由 内 核 开发 者 想 出 的 解决 方法 是 基于 一 个 每 -CPU 数据 结构 .这 个 timer list 结构 包括 
一 个 指针 指向 这 个 的 数据 结构 在 它 的 base 成 员 ， 如 果 base 是 NULL， 这 个 定时 器 没有 
被 调用 运行 ; 否则 ， 这 个 指针 告知 哪个 数据 结构 (并 且 ， 因 此 ， 哪 个 CPU ) 运行 它 每- 
CPU 数据 项 在 第 8 章 的 “每 -CPU 变量 ”一世 中 描述 . 

















无 论 何 时 内 核 代 码 注册 一 个 定时 器 ( 通过 add timer 或 者 mod_timer)， 操 作 最 终 由 
internal add timer 进行 ( 在 kernel/timer.c)， 它 依次 添加 新 定时 器 到 一 个 双向 定时 器 
链表 在 一 个 关联 到 当前 CPU W HAR” 中. 











这 个 层 登 表象 这 样 工作 : 如 果 定 时 器 在 下 一 个 0 到 255 jiffies 内 到 时 ， 它 被 添加 到 专 
供 短 时 定时 器 256 列表 中 的 一 个 上 ， 使 用 expires 成 员 的 最 低 有 效 位 ， 如 果 它 在 将 来 更 
久 时 间 到 时 ( 但 是 在 16,384 jiffies 之 前 )， 它 被 添加 到 基于 expires 成 员 的 9 - 14 
位 的 64 个 列表 中 一 个 .对 于 更 长 的 定时 器 ， 同 样 的 技巧 用 在 15 - 20 位 ，21 - 26 fw, 
和 27 - 31 位 ， 带 有 一 个 指向 将 来 还 长 时 间 的 expires 成 员 的 定时 器 ( 一 些 只 可 能 发 生 
在 64- 位 平台 上 的 事情 ) 被 使 用 一 个 延 时 值 0xffffffff 进行 哈 硕 处 理 ， 并 且 带 有 在 过 
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EPWI ENRERE P — RE PPIBAGATT. (一 个 已 经 到 时 的 定时 器 模拟 有 时 在 高 
负载 情况 下 被 注册 ， 特 别 的 是 如 果 你 运行 一 个 可 抢占 内 核 ) 





当 触 发 run timers, CX MPPE AAT A EROR IEH a. 如果 jiffies 当前 
是 256 的 倍数 ， 这 个 函数 还 重新 哈 希 处 理 一 个 下 一 级 别 的 定时 器 列表 到 256 短期 列表 ， 
可 能 地 层 登 一 个 或 多 个 别 的 级 别 ， 根 据 jiffies 的 位 表示 . 























这 个 方法 ， 昌 然 第 一 眼看 去 相当 复杂 ， 在 儿 个 和 大 量 定时 器 的 时 候 都 工作 得 很 好 .用 来 管 
理 每 个 激活 定时 器 的 时 间 独 立 于 已 经 注册 的 定时 器 数目 并 且 限 制 在 几 个 对 于 它 的 expires 
成 员 的 二 进 制 表示 的 逻辑 操作 上 .， 关联 到 这 个 实现 的 唯一 的 开销 是 给 512 链表 头 的 内 存 
( 256 短期 链表 和 4 组 64 更 长 时 间 的 列表 ) -- BI 4 KB 的 容量 . 


























函数 — run timers, WE] /proc/jitimer 所 示 ， 在 原子 上 下 文 运行 ， 除 了 我 们 已 经 描述 
过 的 限制 ， 这 个 带 来 一 个 有 趣 的 特性 : 定时 器 刚好 在 合适 的 时 间 到 时 ， 甚 全 你 没有 运行 一 
个 可 抢占 内 核 ， 并 且 CPU 在 内 核 空间 忙 ， 你 可 以 见 到 发 生 了 什么 当 你 在 后 台 读 
/proc/jitbusy 时 以 及 在 前 台 /proc/jitimer， 尽 管 系统 看 来 牢固 地 被 锁 住 被 这 个 忙 等 等 
系统 调用 ， 内 核定 时 器 照样 工作 地 不 错 . 














但 是 ， 记 住 ， 一 个 内 核定 时 器 还 远 未 完善 ， 因 为 它 受 累 于 jitter 和 其 他 由 硬件 中 断 引 
起 怪物 ， 还 有 其 他 定时 器 和 其 他 异步 任务 ， 虽 然 一 个 关联 到 简单 数字 I/0 的 定时 器 对 于 
一 个 如 同和 运行 一 个 步 进 马达 或 者 其 他 业余 电子 设备 等 简单 任务 是 足够 的 ， 它 常常 是 不 合适 
在 工业 环境 中 的 生产 系统 ， 对 于 这 样 的 任务 ， 你 将 最 可 能 需要 依赖 一 个 实时 内 核 扩 展 . 


7.5. Tasklets 机 制 


另 一 个 有 关于 定时 间 题 的 内 核 设 施 是 tasklet 机 制 ， 它 大 部 分 用 在 中 断 管理 (我们 将 在 第 
10 章 再 次 见 到 )， 


























tasklet 类 似 内 核定 时 器 在 某 些 方面 ， 它们 一 直 在 中 断 时 间 运 行 ， 它 们 一 直 运 行 在 调度 它 
们 的 同一 个 CPU 上 ， 并 且 它 们 接收 一 个 unsigned long 参数 ， 不 象 内 核定 时 器 ， 但 是 ， 
你 无 法 请 求 在 一 个 指定 的 时 间 执 行 函数 ， 通 过 调度 一 个 tasklet， 你 简单 地 请 求 它 在 以 后 
的 一 个 由 内 核 选 择 的 时 间 执 行 ， 这 个 行为 对 于 中 断 处 理 特 别 有 用 ， 那 里 硬件 中 断 必 须 被 尽 
快 处 理 ， 但 是 大 部 分 的 时 间 管 理 可 以 安全 地 延 后 到 以 后 的 时 间 . 实际 上 ， 一 个 tasket, 

就 象 一 个 内 核定 时 器 ， 在 一 个 “ 软 中 断 “ 的 上 下 文中 执行 (以 原子 模式 )， 在 使 能 硬件 中 断 时 
执行 异步 任务 的 一 个 内 核 机 制 |. 























一 个 tasklet 存在 为 一 个 时 间 绪 构 ， 它 必须 在 使 用 前 被 初始 化 ， 初始化 能 够 通过 调用 一 
个 特定 函数 或 者 通过 使 用 茶 些 宏 定 义 声明 结构 : 











#include <linux/interrupt. h> 
struct tasklet_struct { 


fk... */ 


void (Ckfunc) (unsigned long); 
unsigned long data; 


} , 
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void tasklet init(struct tasklet struct *t, 
void Ckfunc) (unsigned long), unsigned long data); 
DECLARE TASKLET (name, func, data); 
DECLARE TASKLET DISABLED(name, func, data); 


tasklet 提供 了 许多 有 趣 的 特色 : 








。 一 个 tasklet 能 够 被 禁止 并 且 之 后 被 重新 使 能 ; 它 不 会 执行 直到 它 被 使 能 与 被 禁 
止 相同 的 的 次 数 . 

。 如 同 定 时 器 ， 一 个 tasklet 可 以 注册 它 自己 . 

。 一 个 tasklet 能 被 调度 来 执行 以 正常 的 优先 级 或 者 高 优先 级 ， 后 一 组 一 直 是 首先 
执行 . 

e taslet 可 能 立刻 运行 ， 如 果 系 统 不 在 重 载 下 ， 但 是 从 不 会 晚 于 下 一 个 时 钟 吐 味 . 

。 一 个 tasklet 可 能 和 其 他 tasklet 并 发 ， 但 是 对 它 自 己 是 严格 地 串 行 的 - 同样 
的 tasklet 从 不 同时 运行 在 超过 一 个 处 理 器 上 . 同样， 如 已 经 提 到 的 ， 一 个 
tasklet 常常 在 调度 它 的 同一 个 CPU 上 运行 . 





























jit 模块 包括 2 个 文件 ，/proc/jitasklet 和 /proc/jitasklethi， 它 返回 和 在 内 核定 
时 器 “一 节 中 介绍 过 的 /proc/jitimer 同样 的 数据 ， 当 你 读 其 中 一 个 文件 时 ， 你 取 回 一 个 
header 和 sixdata ÍF. 第 一 个 数据 行 描述 了 调用 进程 的 上 下 文 ， 并 且 其 他 的 行 描述 了 一 
个 tasklet 过 程 连 续 运 行 的 上 下 文 . 这 是 一 个 在 编译 一 个 内 核 时 的 运行 例子 : 











phon% cat /proc/jitasklet 

time delta inirq pid cpu command 
6076139 0 0 4370 0 cat 

6076140 1 1 4368 0 ccl 

6076141 1 1 4368 0 ccl 

6076141 0 1 2 0 ksoftirqd/0 
6076141 0 1 2 0 ksoftirqd/0 
6076141 0 1 2 0 ksoftirqd/0 














如 同 由 上 面 数据 所 确定 的 ，tasklet Æ F—^ HI RIA pgisfI 3E CPU 在 忙于 运行 一 个 
进程 ， 但 是 它 立 刻 被 运行 当 CPU 处 于 空闲 ， 内 核 提 供 了 一 套 ksoftirqd 内 核 线程 ， 每 个 
CPU 一 个 ， 只 是 来 运行 “软件 中 断 ” 处 理 ， 就 像 tasklet_action 函数 .因此 ，tasklet 
的 最 后 3 个 运行 在 关联 到 CPU 0 的 ksoftirqd 内 核 线 程 的 上 下 文中 发 生 . jitasklethi 
的 实现 使 用 了 一 个 高 优先 级 tasklet， 在 马上 要 来 的 函数 列表 中 解释 . 




















jit 中 实现 /proc/jitasklet 和 /proc/jittasklethi 的 实际 代码 与 /proc/jitimer 的 
实现 代码 几乎 是 一 致 的 ， 但 是 它 使 用 tasklet 调用 代 蔡 那些 定时 器 . 下面 的 列表 详细 展 
开 了 tasklet 结构 已 被 初始 化 后 的 内 核对 tasklet 的 接口 : 














void tasklet disable(struct tasklet struct **t); 


这 个 函数 禁止 给 定 的 tasklet. tasklet 可 能 仍然 被 tasklet schedule 调度 ， 但 
是 它 的 执行 被 延 后 直到 这 个 tasklet 被 再 次 使 能 ， 如 果 这 个 tasklet 当前 在 运行 ， 
这 个 函数 忙 等 待 直到 这 个 tasklet 退出 ; 因此 ， 在 调用 tasklet disable 后 ， 你 
可 以 确保 这 个 tasklet 在 系统 任何 地 方 都 不 在 运行 . 
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void tasklet disable nosync(struct tasklet struct *t); 





禁止 这 个 tasklet， 但 是 没有 等 竺 任何 当前 运行 的 函数 退出 ， 当 它 返回 ， 这 个 
tasklt 被 禁止 并 且 不 会 在 以 后 被 调度 直到 重新 使 能 ， 但 是 它 可 能 仍然 运行 在 另 一 
个 CPU 当 这 个 函数 返回 时 . 

















void tasklet enable(struct tasklet struct *t); 





使 能 一 个 之 前 被 禁止 的 tasklet， 如 果 这 个 tasklet 已 经 被 调度 ， 它 会 很 快运 行 . 
一 个 对 tasklet enable 的 调用 必须 匹配 每 个 对 tasklet disable 的 调用 ， 因 为 
内 核 跟踪 每 个 tasklet 的 “禁止 次 数 ”. 


void tasklet schedule(struct tasklet struct *t); 





调度 tasklet 执行 ， 如 果 一 个 tasklet 被 再 次 调度 在 它 有 机 会 运行 前 ， 它 只 运行 
一 次 ， 但 是 ， 如 果 他 在 运行 中 被 调度 ， 它 在 完成 后 再 次 运行 ; 这 保证 了 在 其 他 事件 
被 处 理 当中 发 生 的 事件 收 到 应 有 的 注意 ， 这 个 做 法 也 允许 一 个 tasklet 重新 调度 
它 自己 . 


























void tasklet hi schedule(struct tasklet struct *t); 








调度 tasklet 在 更 高 优先 级 执行 ， 当 软 中 断 处 理 运 行 时 ， 它 处 理 高 优先 级 
tasklet 在 其 他 软 中 断 之 前 ， 包 括 * 正 常 的 ”tasklet， 理想 地 ， 只 有 具有 低 响 应 周 
期 要 求 ( 例如 填充 音频 缓冲 ) 应当 使 用 这 个 函数 ， 为 避免 其 他 软件 中 断 处 理 引 入 的 
附加 周期 ， 实际 上 ，/proc/jitasklethi 没有 显示 可 见 的 与 /proc/jitasklet 的 
区 别 . 



































void tasklet kill(struct tasklet struct **t); 











这 个 函数 确保 了 这 个 tasklet 没 被 再 次 调度 来 运行 ; 它 常 常 被 调用 当 一 个 设备 正 
被 关闭 或 者 模块 卸载 时 ， 如 果 这 个 tasklet 被 调度 来 运行 ， 这 个 函数 等 待 直到 它 
已 执行 ， 如 果 这 个 tasklet 重新 调度 它 自己 ， 你 必须 阻止 在 调用 tasklet kill 
前 它 重 新 调度 它 自己 ， 如 同 使 用 del timer sync. 

















tasklet 在 kernel/softirq.c 中 实现 . 2 个 tasklet 链表 ( 正常 和 高 优先 级 ) 被 声明 
为 每 -CPU 数据 结构 ， 使 用 和 内 核定 时 器 相同 的 CPU- 杀 和 机 制 ， 在 tasklet 管理 中 的 数 
据 结 构 是 简单 的 链表 ， 因 为 tasklet 没有 内 核定 时 器 的 分 类 请 求 . 


7.6. 工作 队列 


工作 队列 是 ， 表 面 上 看 ， 类 似 于 taskets; 它们 允许 内 核 代 码 来 请 求 在 将 来 茶 个 时 间 调 用 
一 个 函数 . 但是， 有 几 个 显著 的 不 同 在 这 2 个 之 间 ， 包 括 : 





























。 tasklet 在 软件 中 断 上 下 文中 运行 的 结果 是 所 有 的 tasklet 代码 必须 是 原子 的 . 
相反 ， 工 作 队 列 函 数 在 一 个 特殊 内 核 进 程 上 下 文 运 行 ; 结果 ， 它 们 有 更 多 的 灵活 性 . 
寺 别 地 ， 工 作 队列 函数 能 够 睡眠 . 
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。 tasklet MER EE TIEDE Ed. TEISA, di 
省 地 . 

。 内 核 代码 可 以 请 求 工作 队列 函数 被 延 后 一 个 明确 的 时 间 间隔 


























两 者 之 间 关 键 的 不 同 是 tasklet 执行 的 很 快 ， 短 时 期 ， 并 且 在 原子 态 ， 而 工作 队列 函数 
可 能 有 高 周期 但 是 不 需要 是 原子 的 .每 个 机 制 有 它 适合 的 情形 . 











工作 队列 有 一 个 struct workqueue struct 类 型 ， 在 《linux/workqueue.h> 中 定义 . 一 
个 工作 队列 必须 明确 的 在 使 用 前 创建 ， 使 用 一 个 下 列 的 2 个 函数 : 




















struct workqueue struct *create workqueue (const char *name); 
struct workqueue struct *create singlethread workqueue(const char *name); 


每 个 工作 队列 有 一 个 或 多 个 专用 的 进程 (“内 核 线程 ”)， 它 运行 提交 给 这 个 队列 的 函数 .如 
果 你 使 用 create workqueue， 你 得 到 一 个 工作 队列 它 有 一 个 专用 的 线程 在 系统 的 每 个 处 
理 器 上 .在 很 多 情况 下 ， 所 有 这 些 线程 是 简单 的 过 度 行为 ; 如 果 一 个 单个 工作 者 线程 就 足 
1, EH create singlethread workqueue 来 代替 创建 工作 队列 


























提交 一 个 任务 给 一 个 工作 队列 ， 你 需要 填充 一 个 work struct 结构 .这 可 以 在 编译 时 完 
m, Wb: 





DECLARE WORK(name, void Ckfunction) (void *), void *data); 





这 里 name 是 声明 的 结构 名 称 ，function 是 从 工作 队列 被 调用 的 函数 ， 以 及 data 是 一 
个 传递 给 这 个 函数 的 值 ， 如果 你 需要 建立 work struct 结构 在 运行 时 ， 使 用 下 面 2 个 宏 
定义 : 














INIT WORK (struct work struct *work, void Ckfunction) (void *), void **data); 
PREPARE WORK (struct work struct *work, void Ckfunction) (void *), void **data); 














INIT WORK 做 更 加 全 面 的 初始 化 结构 的 工作 ; 你 应 当 在 第 一 次 建立 结构 时 使 用 它 . 
PREPARE WORK 做 几乎 同样 的 工作 ， 但 是 它 不 初始 化 用 来 连接 work_struct 结构 到 工作 队 
列 的 指针 ， 如 果 有 任何 的 可 能 性 这 个 结构 当前 被 提交 给 一 个 工作 队列 ， 并 且 你 需要 改变 这 
个 队列 ， 使 用 PREPARE WORK 而 不 是 INIT WORK. 














有 2 个 函数 来 提交 工作 给 一 个 工作 队列 : 


int queue work(struct workqueue struct *queue, struct work struct *work) ; 
int queue delayed work(struct workqueue struct *queue, struct work struct 
*work, unsigned long delay); 








每 个 都 添加 工作 到 给 定 的 队列 .如果 使 用 queue_delay_work， 但 是 ， 实 际 的 工作 没有 进 
行 直到 至 少 delay jiffies 已 过 去 ， 从 这 些 函 数 的 返回 值 是 0 如 果 工 作 被 成 功 加 入 到 队 
Jj; 一 个 非 零 结果 意味 着 这 个 work struct 结构 已 经 在 队列 中 等 待 ， 并 且 第 2 次 没有 加 
A. 











在 将 来 的 某 个 时 间 ， 这 个 工作 函数 将 被 使 用 给 定 的 data 值 来 调用 . 这 个 函数 将 在 工作 者 
线程 的 上 下 文 运行 ， 因 此 它 可 以 睡眠 如 果 和 需要 一 尽管 你 应 当知 道 这 个 睡眠 可 能 怎样 影响 
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提交 给 同一 个 工作 队列 的 其 他 任务 .这 个 函数 不 能 做 的 是 ， 但 是 ， 是 存 取 用 户 空间 ， 因 为 
它 在 一 个 内 核 线程 中 运行 ， 完 全 没有 用 户 空间 来 存 取 . 




















如 果 你 需要 取消 一 个 挂 起 的 工作 队列 入 口 ， 你 可 以 调用 : 


int cancel delayed work(struct work struct *work); 





返回 值 是 非 零 如 果 这 个 入 口 在 它 开始 执行 前 被 取消 ， 内 核 保证 给 定 入 口 的 执行 不 会 在 调用 
cancel delay work 后 被 初始 化 ， 如 果 cancel delay work 返回 0， 但 是 ， 这 个 入 口 可 

能 已 经 运行 在 一 个 不 同 的 处 理 器 ， 并 且 可 能 仍然 在 调用 cancel delayed work 后 在 运行 . 
要 绝对 确保 工作 函数 没有 在 cancel delayed work 返回 0 后 在 任何 地 方 运行 ， 你 必须 跟 
随 这 个 调用 来 调用 : 


























void flush workqueue(struct workqueue struct *queue) ; 


在 flush workqueue 返回 后 ， 没 有 在 这 个 调用 前 提交 的 函数 在 系统 中 任何 地 方 运行 . 








当 你 用 完 一 个 工作 队列 ， 你 可 以 去 掉 它 ， 使 用 : 


void destroy workqueue(struct workqueue struct *queue); 


7. 6. 1， 共 享 队列 


一 个 设备 张 动 ， 在 许多 情况 下 ， 不 需要 它 自己 的 工作 队列 ， 如 果 你 只 偶尔 提交 任务 给 队列 ， 
简单 地 使 用 内 核 提 供 的 共享 的 ， 缺 省 的 队列 可 能 更 有 效 ， 如 果 你 使 用 这 个 队列 ， 但 是 ， 你 
必须 明白 你 将 和 别 的 在 共享 它 ， 从 另 一 个 方面 说 ， 这 意味 着 你 不 应 当 长 时 间 独 占 队 列 (无 

长 睡眠 )， 并 且 可 能 要 更 长 时 间 它 们 轮 到 处 理 器 . 



































jiq (“just in queue") 模块 输出 2 个 文件 来 演示 共享 队列 的 使 用 .它们 使 用 一 个 单个 
work struct structure， 这 个 结构 这 样 建立 : 





static struct work struct jiq work; 
/* this line is in jiq init() */ 
INIT WORK (&jiq work, jiq print wq, &jiq data); 


当 一 个 进程 读 /proc/jiqwq， 这 个 模块 不 带 延 迟 地 初始 化 一 系列 通过 共享 的 工作 队列 的 路 
线 . 


int schedule work(struct work struct *work); 














注意 ， 当 使 用 共享 队列 时 使 用 了 一 个 不 同 的 函数 ; ERER work struct 结构 作为 一 个 
参数 .在 jia 中 的 实际 代码 看 来 如 此 : 





prepare to wait(&jiq wait, &wait, TASK INTERRUPTIBLE): 
schedule work(&jiq work); 

schedule QO; 

finish wait(&jiq wait, &wait); 
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这 个 实际 的 工作 函数 打印 出 一 行 就 象 jit 模块 所 作 的 ， 接 着 ， 如 果 需 要 ， 重 新 提交 这 个 
work structcture 到 工作 队列 中 .在 这 是 jiq print wq 全 部 : 

















static void jiq print wq(void *ptr) 
{ 


struct clientdata *data = (struct clientdata *) ptr; 


if (! jiq print (ptr)) 
return; 


if (data->delay) 

schedule delayed work(&jiq work, data->delay): 
else 

schedule work(&jiq work); 


} 














如 果 用 户 在 读 被 延 后 的 设备 (/proc/jigqwqdelay)， 这 个 工作 函数 重新 提交 它 上 自己 在 延 后 
的 模式 ， 使 用 schedule delayed work: 


int schedule delayed work(struct work struct *work, unsigned long delay); 
如 果 你 看 从 这 2 个 设备 的 输出 ， 它 看 来 如 : 


% cat /proc/ jiqwq 
time delta preempt pid cpu command 
1113043 0 0 7 1 events/l 
1113043 0 0 7 1 events/l 
1113043 0 0 7 1 events/l 
1113043 0 0 7 1 events/l 
1113043 0 0 7 1 events/l 

% cat /proc/jiqwqdelay 
time delta preempt pid cpu command 
1122066 1 0 6 0 events/0 


1122067 1 0 6 0 events/0 


1122068 1 0 6 0 events/0 
1122069 1 0 6 0 events/0 
1122070 1 0 6 0 events/0 


当 /proc/jiqwq 被 谈 ， 在 每 行 的 打印 之 间 没 有 明显 的 延迟 . 相反 ， 当 /proc/jiqwqdealy 
被 读 时 ， 在 每 行 之 间 有 恰好 一 个 jiffy 的 延 时 ， 在 每 一 种 情况 ， 我 们 看 到 同样 的 进程 名 
子 被 打印 ; 它 是 实现 共享 队列 的 内 核 线程 的 名 子 . CPU FRA RER ARA; 我 们 从 不 知 
道 当 读 /proc 文件 时 哪个 CPU 会 在 运行 ， 但 是 这 个 工作 函数 之 后 将 一 直 运 行 在 同一 个 处 
FEZ. 











如 果 你 需要 取消 一 个 已 提交 给 工作 队列 的 工作 入 口 ， 你 可 以 使 用 cancel delayed work, 
如 上 面 所 述 ， 刷 新 共享 队列 需要 一 个 不 同 的 函数 ， 但 是 : 
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void flush scheduled work (void); 








因为 你 不 知道 别人 谁 可 能 使 用 这 个 队列 ， 你 从 不 真正 知道 flush scehduled work 返回 可 
能 需要 多 长 时 间 . 


7.7. 快速 参考 


本 章 介绍 了 下 面 的 符号 . 








7.7. 1， 时 间 管 理 


#include Xlinux/param. h> 
HZ 





HZ KESFET EITA E AT ERA A Zi H . 





Sinclude <linux/jiffies. h> 
volatile unsigned long jiffies; 
u64 jiffies_64; 








jiffies_64 变量 每 个 时 钟 跑 蚊 时 被 递增 ; 因此， 它 是 每 秒 递 增 HZ 次 ， 内 核 代 码 
几乎 常常 引用 jiffies， 它 在 64- 位 平台 和 jiffies 64 相同 并 且 在 32- 位 平台 是 
它 低 有 效 的 一 半 . 





int time after(unsigned long a, unsigned long b); 
int time before(unsigned long a, unsigned long b); 
int time after eq(unsigned long a, unsigned long b); 
int time before eq(unsigned long a, unsigned long b); 








这 些 布尔 表达 式 以 一 种 安全 的 方式 比较 jiffies， 没 有 万 一 计数 器 溢出 的 问题 和 不 
需要 存 取 jiffies 64. 





u64 get jiffies 64(void) ; 


获取 jiffies 64 而 没有 竞争 条 件 . 





Sinclude <linux/time. h> 

unsigned long timespec to jiffies(struct timespec *value); 

void jiffies to timespec(unsigned long jiffies, struct timespec *value); 
unsigned long timeval to jiffies(struct timeval *value); 

void jiffies to timeval(unsigned long jiffies, struct timeval *value); 


fr jiffies 和 其 他 表示 之 间 转 换 时 间 表 示 . 
Hinclude <asm/msr. h> 
rdtsc (low32, high32) ; 
rdtscl(10w32); 
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rdtscll(var32); 


x86- 特 定 的 宏 定义 来 读 取 时 戳 计 数 器 .它们 作为 2 半 32- 位 来 读 取 ， 只 读 低 一 半 ， 
或 者 全 部 读 到 一 个 long long 变量 . 


#include <linux/timex. h> 
cycles_t get_cycles (void); 














PEIRIERS. WR CPU BERRE, E 0. 


#include <linux/time. h> 
unsigned long mktime (year, mon, day, h, m, s); 


返回 自 Epoch 以 来 的 秒 数 ， 基 于 6 个 unsigned int 参数 . 


void do gettimeofday (struct timeval *tv); 











返回 当前 时 间 ， 作 为 自 Epoch 以 来 的 秒 数 和 微 秒 数 ， 用 硬件 能 提供 的 最 好 的 精度 . 
在 大 部 分 的 平台 这 个 解决 方法 是 一 个 微 秒 或 者 更 好 ， 尺 管 一 些 平台 只 提供 jiffies 
精度 . 




















struct timespec current kernel time (void); 
返回 当前 时 间 ， 以 一 个 jiffy 的 精度 . 
7.1.2. 延迟 


Sinclude Xlinux/wait. h> 
long wait event interruptible timeout(wait queue head t *q, condition, signed 





long timeout); 








使 当前 进程 在 等 竺 队列 进 入 睡眠 ， 安 装 一 个 以 jiffies 表达 的 超时 值 ， 使 用 
schedule timeout( 下 面 ) 给 不 可 中 断 睡眠 . 








#include Xlinux/sched. h> 
signed long schedule timeout (signed long timeout); 


调用 调度 器 ， 在 确保 当前 进程 在 超时 到 的 时 候 被 唤醒 后 . 调用 者 首先 必须 调用 
set curret state 来 使 自己 进入 一 个 可 中 断 的 或 者 不 可 中 断 的 睡眠 状态 . 








#include <linux/delay. h> 

void ndelay (unsigned long nsecs); 
void udelay (unsigned long usecs); 
void mdelay (unsigned long msecs); 


引入 一 个 整数 纳 秒 ， 微 秒 和 毫秒 的 延 退 ， 获 得 的 延迟 至 少 是 请 求 的 值 ， 但 是 可 能 更 
多 .每 个 函数 的 参数 必须 不 超过 一 个 平台 特定 的 限制 (常常 是 几 千 ). 
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void msleep(unsigned int millisecs); 
unsigned long msleep interruptible(unsigned int millisecs); 
void ssleep(unsigned int seconds); 











使 进程 进入 睡眠 给 定 的 毫秒 数 (或 者 秒 ， 如 果 使 ssleep). 
7.7. 3， 内 核定 时 器 


#include Xasm/hardirq. h> 
int in interrupt (void) ; 
int in atomic (void); 





返回 一 个 布尔 值 告知 是 否 调用 代码 在 中 断 上 下 文 或 者 原子 上 下 文 执行 ， 中 断 上 下 文 
是 在 一 个 进程 上 下 文 之 外 ， 或 者 在 硬件 或 者 软件 中 断 处 理 中 ， 原 子 上 下 文 是 当 你 不 
能 调度 一 个 中 断 上 下 文 或 者 一 个 持 有 一 个 自 旋 锁 的 进程 的 上 下 文 . 











#include Xlinux/timer. h> 
void init_timer (struct timer list * timer); 
struct timer list TIMER INITIALIZER( function, expires, _data); 








这 个 函数 和 静态 的 定时 器 结构 的 声明 是 初始 化 一 个 timer list 数据 结构 的 2 个 





void add timer(struct timer list * timer); 





注册 定时 器 结构 来 在 当前 CPU 上 运行 . 


int mod timer(struct timer list *timer, unsigned long expires); 





改变 一 个 已 经 被 调度 的 定时 器 结构 的 超时 时 间 ， 它 也 能 作为 一 个 add timer 的 替 
f. 


int timer pending(struct timer list * timer); 





宏 定义 ， 返 回 一 个 布尔 值 说 明 是 否 这 个 定时 器 结构 已 经 被 注册 运行 . 


void del timer(struct timer list * timer); 
void del timer sync(struct timer list * timer); 





从 激活 的 定时 器 链表 中 去 除 一 个 定时 器 后 者 保证 这 定时 器 当前 没有 在 另 一 个 CPU 
上 运行 . 


7.7.4. Tasklets 机 人 制 


#include <linux/interrupt. h> 
DECLARE_TASKLET (name, func, data); 
DECLARE TASKLET DISABLED(name, func, data); 
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void tasklet init(struct tasklet struct *t, void Ckfunc) (unsigned long), 
unsigned long data); 





前 2 个 宏 定义 声明 一 个 tasklet 结构 ， 而 tasklet init 函数 初始 化 一 个 已 经 通 
过 分 配 或 其 他 方式 获得 的 tasklet 结构 .第 2 个 DECLARE 宏 标识 这 个 tasklet 
为 禁止 的 . 








void tasklet disable(struct tasklet struct *t); 
void tasklet disable nosync(struct tasklet struct *t); 
void tasklet enable(struct tasklet struct *t); 

















禁止 和 使 能 一 个 E 每 个 禁止 必须 配对 一 个 使 能 ( 你 可 以 禁止 这 个 tasklet 
即便 它 已 经 被 禁止 )， 函数 tasklet disable ^ " tasklet 终止 如 果 它 在 男 一 个 
CPU 上 运行 . B m UE 





void tasklet schedule(struct tasklet struct *t); 
void tasklet hi schedule(struct tasklet struct *t); 


调度 一 个 tasklet 运行 ， 或 者 作为 一 个 “正常 ”tasklet 或 者 一 个 高 优先 级 的 ， 当 
软 中 断 被 执行 ， 高 优先 级 tasklets 被 首先 处 理 ， 而 正常 tasklet 最 后 执行 . 











void tasklet kill(struct tasklet struct **t); 


从 激活 的 链表 中 去 掉 tasklet， 如 果 它 被 调度 执行 . 如 同 tasklet disable, X^ 
函数 可 能 在 SMP 系统 中 阻塞 等 待 tasklet 终止 ， 如 果 它 当前 在 另 一 个 CPU 上 运 
行 . 


7.7.5. TBJ) 


#include <linux/workqueue. h> 
struct workqueue_struct; 
struct work struct; 





这 些 结构 分 别 表示 一 个 工作 队列 和 一 个 工作 入 口 . 


struct workqueue struct *create workqueue (const char *name); 
struct workqueue struct *create singlethread workqueue(const char *name); 
void destroy workqueue(struct workqueue struct *queue); 





创建 和 销毁 工作 队列 的 函数 .一 个 对 create workqueue 的 调用 创建 一 个 有 一 个 工 
作者 线程 在 系统 中 每 个 处 理 器 上 的 队列 ; 相反 ，create_singlethread_workqueue 
创建 一 个 有 一 个 单个 工作 者 进程 的 工作 队列 . 








DECLARE WORK(name, void Ckfunction) (void *), void *data); 
INIT WORK (struct work struct *work, void Ckfunction) (void *), void *data); 
PREPARE WORK (struct work struct *work, void Ckfunction) (void *), void *data) ; 


声明 和 初始 化 工作 队列 入 口 的 宏 . 
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int queue work(struct workqueue struct *queue, struct work struct **work); 
int queue delayed work(struct workqueue struct *queue, struct work struct 
*work, unsigned long delay); 


从 一 个 工作 队列 对 工作 进行 排队 执行 的 函数 . 


int cancel delayed work(struct work struct *work); 
void flush workqueue(struct workqueue struct *queue) ; 


使 用 cancel delayed work 来 从 一 个 工作 队列 中 去 除 入 口 ; flush workqueue 确 
保 没 有 工作 队列 入 口 在 系统 中 任何 地 方 运行 . 


int schedule work(struct work struct *work); 
int schedule delayed work(struct work struct *work, unsigned long delay); 
void flush scheduled work (void); 





使 用 共享 队列 的 函数 . 
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第 8 章 分 配 内 存 


人 至此， 我 们 已 经 使 用 kmalloc 和 kfree 来 分 配 和 释放 内 存 . Linux 内 核 提 供 了 更 丰富 的 
一 套 内 存 分 配 原 语 ， 但 是 . 在 本 章 ， 我 们 查看 在 设备 驱动 中 使 用 内 存 的 其 他 方法 和 如 何 优 
化 你 的 系统 的 内 存 资源 ， 我 们 不 涉及 不 同 的 体系 实际 上 如 何 管理 内 存 .， 模块 不 牵扯 在 分 段 ， 
分 页 等 问题 中 ， 因 为 内 核 提 供 一 个 统一 的 内 存 管理 驱动 接口 ， 另外， 我 们 不 会 在 本 章 描 述 
内 存 管理 的 内 部 细节 ， 但 是 推迟 在 15 章 . 


8.1. kmalloc 的 真实 故事 


kmalloc 分 配 引擎 是 一 个 有 力 的 工具 并 且 容 易学 习 因 为 它 对 malloc 的 相似 性 .这 个 函数 
快 ( 除 非 它 阻 塞 ) 并 且 不 清 零 它 获得 的 内 存 ; 分 配 的 区 仍然 持 有 它 原来 的 内 容 . ”分 配 的 
区 也 是 在 物理 内 存 中 连续 ， 在 下 面 几 节 ， 我 们 详细 讨论 kmalloc， 因 此 你 能 比较 它 和 我 们 
后 来 要 讨论 的 内 存 分 配 技术 . 


























































































































8.1.1. flags 参数 
记 住 kmalloc 原型 是 : 


#include <linux/slab. h> 
void *kmalloc(size t size, int flags); 

















给 kmalloc 的 第 一 个 参数 是 要 分 配 的 块 的 大 小 ， 第 2 个 参数 ， 分 配 标志 ， 非 常 有 趣 ， 因 
为 它 以 几 个 方式 控制 kmalloc 的 行为 . 

















最 一 般 使 用 的 标志 ，GFP_KERNEL， 意 思 是 这 个 分 配 (( 内 部 最 终 通过 调用 

get free pages 来 进行 ， 它 是 GFP_ 前缀 的 来 源 ) 代表 运行 在 内 核 空间 的 进程 而 进行 
的 ， 换 句 话说， 这 意味 着 调用 函数 是 代表 一 个 进程 在 执行 一 个 系统 调用 ， 使 用 GFP_KENRL 
意味 着 kmalloc 能 够 使 当前 进程 在 少 内 存 的 情况 下 睡眠 来 等 待 一 页 ， 一 个 使 用 

GFP KERNEL 来 分 配 内 存 的 函数 必须 ， 因 此 ， 是 可 重 入 的 并 且 不 能 在 原子 上 下 文中 运行 . 
当当 前 进程 睡 卢 ， 内 核 采取 正确 的 动作 来 定位 一 些 空 亲 内 存 ， 或 者 通过 刷新 缓存 到 磁盘 或 
者 交换 出 去 一 个 用 户 进程 的 内 存 . 






























































GFP KERNEL 不 一 直 是 使 用 的 正确 分 配 标志 ; 有 时 kmalloc 从 一 个 进程 的 上 下 文 的 外 部 调 
Hj. 例如 ， 这 类 的 调用 可 能 发 生 在 中 断 处 理 ，tasklet， 和 内 核定 时 器 中 ， 在 这 个 情况 下 ， 
当前 进程 不 应 当 被 置 为 睡眠 ， 并 且 了 驱动 应 当 使 用 一 个 GFP_ATOMIC 标志 来 代替 .内核 正 常 
地 试图 保持 一 些 空闲 页 以 便 来 满足 原子 的 分 配 ， 当 使 用 GFP_ATOMIC 时 ，kmalloc 能 够 使 
用 甚至 最 后 一 个 空闲 页 ， 如 果 这 最 后 一 个 空闲 页 不 存在 ， 但 是 ， 分 配 失败 . 















































其 他 用 来 代替 或 者 增添 GFP KERNEL 和 GFP ATOMIC 的 标志 ， 尽 管 它们 2 个 涵盖 大 部 分 
设备 驱动 的 需要 .所 有 的 标志 定义 在 《linux/gfp. hp>， 并 且 每 个 标志 用 一 个 双 下 划 线 做 前 














28 [28] 












































在 其 他 的 之 中 ， 这 暗含 着 你 应 当 明 确 地 清 零 可 能 暴露 给 用 户 空 间或 者 写 入 设备 的 内 存 ; 否则 ， 你 可 能 冒险 将 应 当 
保密 的 信息 透露 出 去 . 











181 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] O O 0O 0O IO [] O Linux[] HD] E] LU  [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
级 ， 例 如 _GFP_DMA， 另 外 ， 有 符号 代表 常常 使 用 的 标志 组 合 ; 这 些 缺 乏 前 绥 并 且 有 时 被 
称 为 分 配 优 先 级 ， 后 者 包括 : 


GFP. ATOMIC 





用 来 从 中 断 处 理 和 进程 上 下 文 之 外 的 其 他 代码 中 分 配 内 存 ， 从 不 睡眠 





GFP_ KERNEL 

















内 核 内 存 的 正常 分 配 ， 可 能 睡眠 . 


GFP USER 




















用 来 为 用 户 空间 页 来 分 配 内 存 ; 它 可 能 睡 上 


zu 


GFP HIGHUSER 





如 同 GFP_USER， 但 是 从 高 端 内 存 分 配 ， 如 果 有 .， 高端 内 存在 下 一 个 子 节 描述 . 


GFP. NOIO 
GFP. NOFS 








这 个 标志 功能 如 同 GFP KERNEL， 但 是 它们 增加 限制 到 内 核能 做 的 来 满足 请 求 ， 一 
个 GFP NOFS 分 配 不 允许 进行 任何 文件 系统 调用 ， 而 GFP NOIO 根本 不 允许 任何 
1/0 初始 化 . 它们 主要 地 用 在 文件 系统 和 虚拟 内 存 代 码 ， 那 里 允许 一 个 分 配 睡眠 ， 
但 是 递归 的 文件 系统 调用 会 是 一 个 坏 注意 . 











上 面 列 出 的 这 些 分 配 标志 可 以 是 下 列 标志 的 相 或 来 作为 参数 ， 这 些 标志 改变 这 些 分 配 如 何 
进行 : 


GFP_ DMA 





这 个 标志 要 求 分 配 在 能 够 DMA 的 内 存 区 ， 确切 的 含义 是 平台 依赖 的 并 且 在 下 面 章 
节 来 解释 . 





— GFP HIGHMEM 





这 个 标志 指示 分 配 的 内 存 可 以 位 于 高 端 内 存 . 


__GFP_ COLD 





正 第 地 ， 内 存 分 配器 尽力 返回 “缓冲 热 “ 的 页 一 可 能 在 处 理 器 绥 冲 中 找到 的 页 ， 相 
反 ， 这 个 标志 请 求 一 个 “ 冷 “ 页 ， 它 在 一 段 时 间 没 被 使 用 ， 它 对 分 配 页 作 DMA 读 是 
有 用 的 ， 此 时 在 处 理 器 缓冲 中 出 现 是 无 用 的 ， 一 个 完整 的 对 如 何 分 配 DMA 缓存 的 
讨论 看 "直接 内 存 存 取 “ 一 节 在 第 1 3m. 











... GFP. NOWARN 
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这 个 很 少 用 到 的 标志 阻止 内 核 来 发 出 警告 (使 用 printk )， 当 一 个 分 配 无 法 满足 . 




















. GFP HIGH 





这 个 标志 标识 了 一 个 高 优先 级 请 求 ， 它 被 允许 来 消耗 甚至 被 内 核 保 留 给 紧急 状况 的 
最 后 的 内 存 页 . 


— GFP. REPEAT 
—. GFP. NOFAIL 
— GFP. NORETRY 


这 些 标志 修改 分 配器 如 何 动作 ， 当 它 有 困难 满足 一 个 分 配 .，_GFP_RFPEAT 意思 是 
更 尽力 些 尝试 ”通过 重复 尝试 一 但 是 分 配 可 能 仍然 失败 . __GFP_NOFAIL 标志 告 
诉 分 配器 不 要 失败 ; 它 尽 最 大 努力 来 满足 要 求 ， 使 用 — GFP NOFAIL 是 强烈 不 推荐 
的 ; 可 能 从 不 会 有 有 效 的 理由 在 一 个 设备 驱动 中 使 用 它 ， 最 后 ，_GFP_NORETRY 告 
知 分 配器 立即 放弃 如 果 得 不 到 请 求 的 内 存 . 


8.1.1.1. 内 存 区 












































. GFP DMA 和 — GFP HIGHMEM 都 有 一 个 平台 相关 的 角色 ， 尽 管 对 所 有 平台 它们 的 使 用 都 
有 效 . 

















Linux 内 核 知 道 最 少 3 个 内 存 区 : DMA- 能 够 内 存 ， 普 通 内 存 ， 和 高 端 内 存 ， 尽 管 通常 地 
分 配 都 发 生 于 普通 区 ， 设 置 这 些 刚刚 提 及 的 位 的 任 一 个 请 求 从 不 同 的 区 来 分 配 内 存 . 这 个 
想法 是 ， 每 个 必须 知道 特殊 内 存 范围 (不 是 认为 所 有 的 RAM. 等 同 ) 的 计算 机 平台 将 落 入 这 
个 抽象 中 . 

















DMA- 能 够 的 内 存 是 位 于 一 个 优先 的 地 址 范围 ， 外 设 可 以 在 这 里 进行 DMA 存 取 .在 大 部 分 
的 健全 的 平台 ， 所 有 的 内 存 都 在 这 个 区 . 在 x86, DMA 区 用 在 RAM 的 前 16 MB， 这 里 传 
统 的 ISA 设备 可 以 进行 DMA; PCI 设备 没有 这 个 限制 . 


高 端 内 存 是 一 个 机 制 用 来 允许 在 32- 位 平台 存 取 ( 相 对 地 ) 大 量 内 存 ， 如 果 没 有 首先 设置 
一 个 特殊 的 映射 这 个 内 存 无 法 直接 从 内 核 存 取 并 且 通 常 更 难 使 用 。， 如果 你 的 驱动 使 用 大 量 
内 存 ， 但 是 ， 如 果 它 能 够 使 用 高 端 内 存 它 将 在 大 系统 中 工作 的 更 好 .高 端 内 存 如 何 工作 以 
及 如 何 使 用 它 的 详情 见 第 1 章 的 ”高端 和 低 端 内 存 “一 节 . 


















































无 论 何 时 分 配 一 个 新 页 来 满足 一 个 内 存 分 配 请 求 ， 内 核 都 建立 一 个 能 够 在 搜索 中 使 用 的 内 
存 区 的 列表 .如 果 — GFP DMA 指定 了 ， 只 有 DMA 区 被 搜索 : 如 果 在 低 端 没 有 内 存 可 用 ， 

分 配 失败 ， 如 果 没 有 特别 的 标志 存 取 ， 普 通 和 DMA 内 存 都 被 搜索 ; 如 果 _GFP_HIGHMEM 
设置 了 ， 所 有 的 3 个 区 都 用 来 搜索 一 个 空闲 的 页 (注意 ， 但 是 ，kmalloc 不 能 分 配 高 端 
Wf.) 

















情况 在 非 统一 内 存 存 取 NUMA) 系统 上 更 加 复杂 . 作为 一 个 通用 的 规则 ， 分 配器 试图 定位 进 
行 分 配 的 处 理 器 的 本 地 的 内 存 ， 尽 管 有 几 个 方法 来 改变 这 个 行为 

















内 存 区 后 面 的 机 制 在 mm/page alloc.c 中 实现 ， 而 内 存 区 的 初始 化 在 平台 特定 的 文件 中 ， 
常常 在 arch 目录 树 的 mm/init.c. 我 们 将 在 第 15 章 再 次 讨论 这 些 主题 . 
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8.1.2. size 参数 




















内 核 管理 系统 的 物理 内 存 ， 这 些 物理 内 存 只 是 以 页 大 小 的 块 来 使 用 .结果 是 ，kmalloc 看 
d ld sms c c 面向 堆 的 分 配 技术 可 能 很 
快 有 麻烦 ; 它 可 能 在 解决 页 边界 时 有 困难 . 因而 ， 内 核 使 用 一 个 特殊 的 面向 页 的 分 配 技术 
来 最 好 地 利用 系统 RAL 


















































Linux 处 理 内 存 分 配 通过 创建 一 套 固定 大 小 的 内 存 对 象 池 ， 分 配 请 求 被 这 样 来 处 理 ， 进 入 
一 个 持 有 足够 大 的 对 象 的 池子 并 且 将 整个 内 存 块 递交 给 请 求 者 ， 内 存 管 理 方案 是 非常 复杂 ， 
并 且 细 市 通常 不 是 全 部 设备 驱动 编写 者 都 感 兴趣 的 . 












































然而 ， 驱 动 开发 者 应 当 记 住 的 一 件 事 情 是 ， 内 核 只 能 分 配 某 些 预定 义 的 ， 固 定 大 小 的 字 节 
数组 ， 如 果 你 请 求 个 任 总数 量 内 存 ， 你 可 和 E 得 到 稍微 多 于 你 请 求 的 ， 至 多 是 2 倍数 量 . 
同样 ， 程 序 员 应 当 记 住 kmalloc 能 够 处 理 的 最 小 分 配 是 32 或 者 64 字 节 ， 依 赖 系统 的 
体系 所 使 用 的 页 大 小 . 





















































kmalloc 能 够 分 配 的 内 存 块 的 大 小 有 一 个 上 限 ， 这 个 限制 随 着 体系 和 内 核 配 置 选 项 而 变化 . 
如 果 你 的 代码 是 要 完全 可 移植 ， 它 不 能 指望 可 以 分 配 任 何 大 于 128 KB. 如 果 你 需要 多 于 
JLA KB， 但 是 ， 有 个 比 kmalloc 更 好 的 方法 来 获得 内 存 ， 我 们 在 本 章 后 面 描述 . 


后 备 缓存 


一 个 设备 驱动 常常 以 反复 分 配 许多 相同 大 小 的 对 和 象 而 结束 . 如果 内 核 已 经 维护 了 一 套 相 同 
大 小 对 象 的 内 存 池 ， 为 什么 不 增加 一 些 特殊 的 内 存 池 给 这 些 高 容量 的 对 象 ? 实际 上 ， 内 核 
确实 实现 了 一 个 设施 来 创建 这 类 内 存 池 ， 它 常常 被 称 为 一 个 后 备 缓 存 ， 设 备 驱 动 常常 不 展 
示 这 类 的 内 存 行为 ， 它 们 证 明 使 用 一 个 后 备 缓存 是 对 的 ， 但 是 ， 有 例外 ; 在 Linux 2.6 
rH USB 和 SCSI 驱动 使 用 缓存 . 







































































Linux 内 核 的 绥 存 管理 者 有 时 称 为 ”slab 分 配器 “. 因此 ， 它 的 功能 和 类 型 在 
<linux/slab. h> 中 声明 . slab 分 配器 实现 有 一 个 kmem cache t 类 型 的 缓存 ; 使 用 一 个 
对 kmem cache create 的 调用 来 创建 它们 : 














kmem cache t *kmem cache create(const char *name, size t size, 

size t offset, 

unsigned long flags, 

void Ckconstructor) (void *, kmem cache t *, 

unsigned long flags), void (*destructor) (void *, kmem cache t *, unsigned 
long flags)); 





这 个 函数 创建 一 个 新 的 可 以 驻 留 任意 数目 全 部 同样 大 小 的 内 存 区 的 缓存 对 象 ， 大 小 由 
size 参数 指定 .name 参数 和 这 个 缓存 关联 并 且 作 为 一 个 在 追踪 问题 时 有 用 的 管理 信息 ; 
通常 ， 它 被 设置 为 被 缓存 的 结构 类 型 的 名 子 . 这 个 缓存 保留 一 个 指向 name 的 指针 ， 而 不 
是 找 贝 它 ， 因 此 驱动 应 当 传递 一 个 指向 在 静态 存储 中 的 名 子 的 指针 (常常 这 个 名 子 只 是 一 
ALFTE). 这 个 名 子 不 能 包含 空格 . 
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offset 是 页 内 的 第 一 个 对 象 的 偏 移 ， 它 可 被 用 来 确保 一 个 对 被 分 配 的 对 象 的 特殊 对 齐 ， 
但 是 你 最 可 能 会 使 用 0 来 请 求 缺 省 值 . flags 控制 如 何 进行 分 配 并 且 是 下 列 标志 的 一 个 











Ardens: 


SLAB NO REAP 

















设置 这 个 标志 保护 绥 存 在 系统 查找 内 存 时 被 削减 . 设置 这 个 标志 通常 是 个 坏 主意 ; 
重要 的 是 避免 不 必要 地 限制 内 存 分 配器 的 行动 目 由 . 











SLAB HWCACHE ALIGN 








这 个 标志 需要 每 个 数据 对 象 被 对 齐 到 一 个 缓存 行 ; 实际 对 齐 依赖 主机 平台 的 缓存 分 


布 ， 这 个 选项 可 以 是 一 个 好 的 选择 ， 


如 果 在 SMP 机 器 上 你 的 缓存 包含 频繁 存 取 的 








项 但是， 用 来 获得 绥 存 行 对 齐 的 填充 可 以 浪费 可 观 的 内 存量 . 


SLAB CACHE DMA 





这 个 标志 要 求 每 个 数据 对 象 在 DMA 内 存 区 分 配 . 
































还 有 一 套 标 志 用 来 调试 缓存 分 配 ; 详情 见 mm/slab.c. 但是， 常常 地 ， 在 用 来 开发 的 系统 
中 ， 这 些 标志 通过 一 个 内 核 配置 选项 被 全 局 性 地 设置 


函数 的 constructor 和 destructor 参数 是 可 选 函 数 ( 但 是 可 能 没有 destructor, WR 
没有 constructor ); 前 者 可 以 用 来 初始 化 新 分 配 的 对 象 ， 后 者 可 以 用 来 ”清理 对象 在 它 
们 的 内 存 被 作为 一 个 整体 释放 回 给 系统 之 前 . 











构造 函数 和 析 构 函数 会 有 用 ， 但 是 有 几 个 限制 你 必须 记 住 ， 一 个 构造 函数 在 分 配 一 系列 对 
象 的 内 存 时 被 调用 ; 因为 内 存 可 能 持 有 儿 个 对 象 ， 构 造 函 数 可 能 被 多 次 调用 ， 你 不 能 假设 








构造 函数 作为 分 配 一 个 对 象 的 一 个 立即 的 结 


果 而 被 调用 .同样 地 ， 析 构 函 数 可 能 在 以 后 茶 





个 未 知 的 时 间 中 调用 ， 不 是 立刻 在 一 个 对 象 被 释放 后 . 析 构 函数 和 构造 函数 可 能 或 不 可 能 
被 允许 睡眠 ， 根 据 它 们 是 否 被 传递 SLAB CTOR ATOMIC 标志 (这 里 CTOR 是 constructor 





的 缩写 ). 


























为 方便 ， 一 个 程序 员 可 以 使 用 相同 的 函数 给 析 构 函数 和 构造 函数 ; slab 分 配器 常常 传递 
SLAB CTOR CONSTRUCTOR 标志 当 被 调用 者 是 一 个 构造 函数 . 














一 且 一 个 对 象 的 缓存 被 创建 ， 你 可 以 通过 调用 kmem cache alloc 从 它 分 配对 象 . 


void *kmem cache alloc(kmem cache t *cache, int flags); 





XE, cache 参数 是 你 之 前 已 经 创建 的 缓存 ; flags 是 你 会 传递 给 kmalloc 的 相同 ， 并 
且 被 参考 如 果 kmem cache alloc 需要 出 去 并 分 配 更 多 内 存 . 








为 释放 一 个 对 象 ， 使 用 kmem cache free: 

















void kmem cache free(kmem cache t *cache, const void *obj); 


AA VREHISRIXA RARE, DUCUM AESDONCHEAL E RCE ERT : 
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int kmem cache destroy (kmem cache t *cache); 


这 个 销毁 操作 只 在 从 这 个 绥 存 中 分 配 的 所 有 的 对 象 都 已 返回 给 它 时 才 成 功 ， 因此， 一 个 模 
块 应 当 检 查 从 kmem cache destroy 的 返回 值 ; 一 个 失败 指示 某 类 在 模块 中 的 内 存 泄漏 
(因为 某 些 对 象 已 被 丢失 . ) 

















使 用 后 备 缓存 的 一 方面 益处 是 内 核 维护 缓冲 使 用 的 统计 ， 这 些 统 计 可 从 /proc/slabinfo 
获得 . 


8. 2. 1， 一 个 基于 Slab 缓存 的 scull: scullc 


是 时 候 给 个 例子 了 .sculle 是 一 个 简化 的 scull 模块 的 版 本 ， 它 只 实现 空 设 备 一 永久 
的 内 存 区 . 不 象 scull， 它 使 用 kmalloc, scullc 使 用 内 存 缓存 ， 量 子 的 大 小 可 在 编译 
时 和 加 载 时 修改 ， 但 是 不 是 在 运行 时 一 这 可 能 需要 创建 一 个 新 内 存 区 ， 并 且 我 们 不 想 处 
理 这 些 不 必要 的 细节 . 





















































scullc 使 用 一 个 完整 的 例子 ， 可 用 来 试验 slab 分 配器 ， 它 区 别 于 scull 只 在 几 行 代码 . 
首先 ， 我 们 必须 声明 我 们 自己 的 slab ZF: 


/* declare one cache pointer: use it for all devices */ 
kmem cache t *scullc cache; 





slab 缓存 的 创建 以 这 样 的 方式 处 理 ( 在 模块 加 载 时 ) : 





/* scullc init: create a cache for our quanta */ 
scullc cache = kmem cache create(^scullc^, scullc quantum, 

0, SLAB HWCACHE ALIGN, NULL, NULL); /* no 
ctor/dtor */ 


if (!scullc cache) 
{ 


scullc cleanup () ; 
return -ENOMEM ; 


j 
这 是 它 如 何 分 配 内 存量 子 : 


/* Allocate a quantum using the memory cache */ 

if (!dptr->data[s pos]) 

{ 
dptr->data[s_pos] = kmem cache alloc(scullc cache, GFP KERNEL); 
if (ldptr-»data[s posl) 


goto nomem; 
memset(dptr-»data[s pos], 0, scullc quantum); 
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还 有 这 些 代码 行 释放 内 存 : 


for (150; i < gset; i++) 
if (dptr->datali]) 
kmem cache free(scullc cache, dptr->datali]): 


Ba, TEBARBUHRAUM, Del AS RII IER: 


/* scullc cleanup: release the cache of our quanta */ 
if (scullc cache) 
kmem cache destroy(scullc cache); 








从 scull 到 sculle 的 主要 不 同 是 稍稍 的 速度 提升 以 及 更 好 的 内 存 使 用 ， 因 为 量子 从 一 
个 恰好 是 合适 大 小 的 内 存 片 的 池 中 分 配 ， 它 们 在 内 存 中 的 排列 是 尽 可 能 的 密集 ， 与 scull 
量子 的 相反 ， 它 带 来 一 个 不 可 预测 的 内 存 碎片 . 


8. 2. 2， 内 存 池 
在 内 核 中 有 不 少 地 方 内 存 分 配 不 允许 失败 . 作为 一 个 在 这 些 情况 下 确保 分 配 的 方式 ， 内 核 


开发 者 创建 了 一 个 已 知 为 内 存 池 (或 者 是 “mempoo01”) 的 抽象 ， 一 个 内 存 池 真 实地 只 是 一 
类 后 备 缓存 ， 它 尽力 一 直 保 持 一 个 空闲 内 存 列表 给 紧急 时 使 用 . 






































一 个 内 存 池 有 一 个 类 型 mempool t ( 在 《linux/mempool.h> 中 定义 ); 你 可 以 使 用 
mempool create 创建 一 个 : 





mempool t *mempool create(int min nr, 
mempool alloc t *alloc fn, 

mempool free t **free fn, 

void *pool data); 



































min nr 参数 是 内 存 池 应 当 一 直 保 留 的 最 小 数量 的 分 配 的 对 象 ， 实际 的 分 配 和 释放 对 象 由 
alloc fn 和 free fn 处 理 ， 它 们 有 这 些 原型 : 





typedef void *(mempool alloc t) (int gfp mask, void *pool data); 
typedef void (mempool free t) (void *element, void *pool data); 


给 mempool create 最 后 的 参数 ( pool data ) 被 传递 给 alloc fn 和 free fn. 














如 果 需 要 ， 你 可 编写 特殊 用 途 的 函数 来 处 理 mempool 的 内 存 分 配 . 常常 ， 但 是 ， 你 只 需 
要 使 内 核 slab 分 配器 为 你 处 理 这 个 任务 ， 有 2 个 函数 ( mempool alloc slab 和 
mempool free slab) 来 进行 在 内 存 池 分 配 原 型 和 kmem cache alloc 和 

kmem cache free 之 间 的 感应 湾 火 ， 因此， 设置 内 存 池 的 代码 常常 看 来 如 此 : 














cache = kmem cache create(. . .); 
pool = mempool create(MY POOL MINIMUM, mempool alloc slab, mempool free slab, 
cache) ; 











一 旦 已 创建 了 内 存 池 ， 可 以 分 配 和 释放 对 象 , 使 用 : 
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void *mempool alloc(mempool t *pool, int gfp mask); 
void mempool free(void *element, mempool t *pool); 
































当 内 存 池 创 建 了 ， 分 配 函 数 将 被 调用 足够 的 次 数 来 创建 一 个 预先 分 配 的 对 象 池 .， 因 此 ， 对 
mempool alloc 的 调用 试图 从 分 配 函 数 请 求 额外 的 对 象 ; 如 果 那 个 分 配 失败 ， 一 个 预先 分 
配 的 对 象 ( 如 果 有 剩 下 的 ) 被 返回 ， 当 一 个 对 象 被 用 mempool free 释放 ， 它 保留 在 池 中 ， 
如 果 对 齐 预 分 配 的 对 象 数 目 小 于 最 小 量 ; 否则 ， 它 将 被 返回 给 系统 . 


























一 个 mempool 可 被 重新 定 大 小 ， 使 用 : 








int mempool resize(mempool t *pool, int new min nr, int gfp mask); 





这 个 调用 ， 如 果 成 功 ， 调 整 内 存 池 的 大 小 至 少 有 new min nr 个 对 象 ， 如 果 你 不 再 需要 一 
个 内 存 池 ， 返 回 给 系统 使 用 : 








void mempool destroy (mempool t *pool); 


你 编写 返回 所 有 的 分 配 的 对 象 ， 在 销毁 mempool 之 前 ， 否 则 会 产生 一 个 内 核 oops. 





如 果 你 考虑 在 你 的 驱动 中 使 用 一 个 mempoo1， 请 记 住 一 件 事 : mempools 分 配 一 块 内 存在 
一 个 链表 中 ， 对 任何 真实 的 使 用 是 空闲 和 无 用 的 .容易 使 用 mempools 消耗 大 量 的 内 存 . 
在 几乎 每 个 情况 下 ， 首 选 的 可 选项 是 不 使 用 mempool 并 且 代 替 以 简单 处 理 分 配 失败 的 可 
能 性 ， 如 果 你 的 驱动 有 任何 方法 以 不 危害 到 系统 完整 性 的 方式 来 响应 一 个 分 配 失 败 ， 就 这 
样 做 .驱动 代码 中 的 mempools 的 使 用 应 当 少 . 


8.3. get free page 和 其 友 


如 果 一 个 模块 需要 分 配 大 块 的 内 存 ， 它 常常 最 好 是 使 用 一 个 面向 页 的 技术 .请 求 整个 页 也 
有 其 他 的 优点 ， 这 个 在 15 ENA. 






























































为 分 配 页 ， 下 列 函数 可 用 : 


get zeroed page (unsigned int flags); 





返回 一 个 指向 新 页 的 指针 并 且 用 零 填充 了 该 页 . 





. get free page(unsigned int flags); 


类 似 于 get_zeroed_page， 但 是 没有 清 零 该 页 . 





. get free pages (unsigned int flags, unsigned int order); 


分 配 并 返回 一 个 指向 一 个 内 存 区 第 一 个 字 节 的 指针 ， 内 存 区 可 能 是 几 个 (物理 上 连 
续 ) 页 长 但 是 没有 清 零 . 














flags 参数 同 kmalloc 的 用 法 相同 ; 常常 使 用 GFP_KERNEL 或 者 GFP_ATOMIC， 可 能 带 有 
. GFP DMA 标志 ( 给 可 能 用 在 ISA DMA 操作 的 内 存 ) 或 者 — GFP HIGHMEM 当 可 能 使 用 
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amA. Morder 是 你 在 请 求 的 或 释放 的 页 数 的 以 2 为 底 的 对 数 ( 即 ，1log2N)， 例 
如 ， 如 果 你 要 一 个 页 order 为 0， 如 果 你 请 求 8 页 就 是 3， 如 果 order 太 大 (没有 那个 
大 小 的 连续 区 可 用 )， 页 分 配 失败 ，get_order 函数 ， 它 使 用 一 个 整数 参数 ， 可 以 用 来 从 
一 个 size 中 提取 order( 它 必须 是 2 的 贤 ) 给 主机 平台 .order 允许 的 最 大 值 是 10 或 
者 11 (对 应 于 1024 或 者 2048 页 )， 依 赖 于 体系 .但 是 ， 一 个 order-10 的 分 配 在 除了 
一 个 刚刚 启动 的 有 很 多 内 存 的 系统 中 成 功 的 机 会 是 小 的 . 














如 果 你 好 奇 ，/proc/buddyinfo 告诉 你 系统 中 每 个 内 存 区 中 的 每 个 order 有 多 少 块 可 用 . 





当 一 个 程序 用 完 这 些 页 ， 它 可 以 使 用 下 列 函 数 之 一 来 释放 它们 .第 一 个 函数 是 一 个 落 回 第 
二 个 函数 的 宏 : 

void free page(unsigned long addr); 

void free pages(unsigned long addr, unsigned long order); 


如 果 你 试图 释放 和 你 分 配 的 页 数 不 同 的 页 数 ， 内 存 图 变 乱 ， 系 统 在 后 面 时 间 中 有 麻烦 . 
值得 强调 一 下 ，_ get free pages 和 其 他 的 函数 可 以 在 任何 时 候 调 用 ， 遵 循 我 们 看 到 的 


kmalloc 的 相同 规则 ， 这些 函数 不 能 在 某 些 情况 下 分 配 内 存 ， 特 别 当 使 用 GFP_ATOMIC HY. 
因此 ， 调 用 这 些 分 配 函 数 的 程序 必须 准备 处 理 分 配 失 败 . 














尽管 kmalloc( GFP KERNEL ) 有 时 失败 当 没 有 可 用 内 存 时 ， 内 核 尽 力 满足 分 配 请 求 ， 因此 ， 
容易 通过 分 配 太 多 的 内 存 降 低 系 统 的 响应 ， 例如， 你 可 以 通过 塞 入 一 个 scull 设备 大 量 
数据 使 计算 机 关机 ; 系统 开始 爬行 当 它 试图 换 出 尽 可 能 多 的 内 存 来 满足 kmalloc 的 请 求 . 
因为 每 个 资源 在 被 增长 的 设备 所 吞食 ， 计 算 机 很 快 就 被 说 无 法 用 ; 在 这 点 上 ， 你 甚至 不 能 
启动 一 个 新 进程 来 试图 处 理 这 个 问题 ， 我 们 在 scull 不 解释 这 个 问题 ， 因 为 它 只 是 一 个 
例子 模块 并 且 不 是 一 个 真正 的 放 入 多 用 户 系统 的 工具 ， 作 为 一 个 程序 员 ， 你 必须 小 心 ， 因 
为 一 个 模块 是 特权 代码 并 且 可 能 在 系统 中 开启 新 的 安全 漏洞 (最 可 能 是 一 个 服务 拒绝 漏洞 
好 像 刚 刚 描述 过 的 . ) 



























































8. 3. 1， 一 个 使 用 整 页 的 scull: scullp 


为 了 真实 地 测试 页 分 配 ， 我 们 已 随 其 他 例子 代码 发 布 了 scullp 模块 ， 它 是 一 个 简化 的 
scull， 就 像 前 面 介绍 过 的 scullc. 




















scullp 分 配 的 内 存量 子 是 整 页 或 者 页 集合 : scullp order 变量 缺 省 是 0， 但 是 可 以 在 编 
译 或 加 载 时 改变 . 








下 列 代码 行 显示 了 它 如 何 分 配 内 存 : 


/* Here's the allocation of a single quantum */ 
if (!dptr-^data[s pos]) 
{ 

dptr->data[s pos] = 


29 [29] 









































RM alloc pages (〈 稍 后 描述 ) 应 当真 正 地 用 作 分 配 高 端 内 存 页 ， 由 于 某 些 理由 我 们 直到 15 章 才 真 正 涉及 . 






































189 


Linux[] [] (LinuxIDC.com) [| [] [] Ubuntu,Fedora, SUSH[] O O O 0O IO [] O Linux[] HD] E] U  [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
(void *) get free pages(GFP KERNEL, dptr-^order); 
if (!dptr-»^datals pos]) 
goto nomem; 
memset(dptr-»data[s pos], 0, PAGE SIZE << dptr-^order); 
} 


scullp 中 释放 内 存 的 代码 看 来 如 此 : 


/* This code frees a whole quantum-set */ 
for (i 90; i < qset; i++) 
if (dptr->data[i]) 
free pages((unsigned long) (dptr->datali]), dptr-^order); 








在 用 户 级 别 ， 被 感觉 到 的 区 别 主要 是 一 个 速度 提高 和 更 好 的 内 存 使 用 ， 因 为 没有 内 部 的 内 
存 碎 片 ， 我 们 运行 一 些 测试 从 scul10 拷贝 4 MB 到 scul11， 并 且 接 着 从 scullpO 到 
scullpl; 结果 显示 了 在 内 核 空间 处 理 器 使 用 率 有 轻微 上 升 . 











性 能 的 提高 不 是 激动 人 心 的 ， 因 为 kmalloc 被 设计 为 快 的 ， 页 级 别 分 配 的 主要 优势 实际 
上 不 是 速度 ， 而 是 更 有 效 的 内 存 使 用 .， 按 页 分 配 不 浪费 内 存 ， 而 使 用 kmalloc 由 于 分 配 
的 粒度 会 浪费 无 法 预测 数量 的 内 存 . 























但 是 — get free page 函数 的 最 大 优势 是 获得 的 页 完全 是 你 的 ， 并 且 你 可 以 ， 理 论 上 ， 

可 以 通过 适当 的 设置 页 表 来 组 合 这些 页 为 一 个 线性 的 区 域 ， 例 如， 你 可 以 允许 一 个 用 户 进 
f£ mmap 作为 单个 不 联系 的 页 而 获得 的 内 存 区 .我们 在 15 章 讨论 这 种 操作 ， 那 里 我 们 展 
zm scullp 如 何 提供 内 存 映 射 ， 一 些 scull 无 法 提供 的 东西 . 


























8.3.2. alloc pages 接口 

















为 完整 起 见 ， 我 们 介绍 另 一 个 内 存 分 配 的 接口 ， 尽 管 我 们 不 会 准备 使 用 它 直 到 15 S. 现 
在 ， 能 够 说 struct page 是 一 个 描述 一 个 内 存 页 的 内 部 内 核 结构 ， 如 同 我 们 将 见 到 的 ， 
在 内 核 中 有 许多 地 方 有 必要 使 用 页 结构 ; 它们 是 特别 有 用 的 ， 在 任何 你 可 能 处 理 高 端 内 存 
的 情况 下 ， 高 端 内 存在 内 核 空 间 中 没有 一 个 常量 地 址 , 





















































Linux 页 分 配器 的 真正 核心 是 一 个 称 为 alloc pages node 的 函数 : 


struct page *alloc pages node(int nid, unsigned int flags, 
unsigned int order); 


这 个 函数 页 有 2 个 变 体 ( 是 简单 的 宏 ) ; 它们 是 你 最 可 能 用 到 的 版 本 : 


struct page *alloc pages(unsigned int flags, unsigned int order); 
struct page *alloc page(unsigned int flags); 
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核心 函数 ，alloc_pages_node， 使 用 3 个 参数 ，nid 是 要 分 配 内 存 的 NUMA 节点 D, 
flags 是 通常 的 GFP 分配 标志 ， 以 及 order 是 分 配 的 大 小 . 返回 值 是 一 个 指向 描述 分 
配 的 内 存 的 第 一 个 (可 能 许多 ) 页 结构 的 指针 ， 或 者 ， 如 常 ，NULL 在 失败 时 . 









































alloc pages 简化 了 情况 ， 通 过 在 当前 NUMA 节点 分 配 内 存 ( 它 使 用 numa node id 的 返 
回 值 作为 nid 参数 调用 alloc pages node). 并且， 当然 ，alloc_pages 省 略 了 order 
参数 并 且 分 配 一 个 单个 页 . 














为 释放 这 种 方式 分 配 的 页 ， 你 应 当 使 用 下 列 一 个 : 


void free page(struct page **page); 

void free pages(struct page *page, unsigned int order); 
void free hot page(struct page *page); 

void free cold page(struct page *page); 





如 果 你 对 一 个 单个 页 的 内 容 是 否 可 能 驻 留 在 处 理 器 缓存 中 有 特殊 的 认识 ， 你 应 当 使 用 
free hot page (对 于 缓存 驻 留 的 页 ) 或 者 free cold page 通知 内 核 . 这 个 信息 帮助 内 
存 分 配器 在 系统 中 优化 它 的 内 存 使 用 . 


8.3.3. vmalloc 和 EA 


我 们 展示 给 你 的 下 一 个 内 存 分 配 函 数 是 vmlloc， 它 在 虚拟 内 存 空 间 分 配 一 块 连续 的 内 存 
Dc. 尽管 这 些 页 在 物理 内 存 中 不 连续 (使 用 一 个 单独 的 对 alloc_page 的 调用 来 获得 每 个 
页 )， 内 核 看 它们 作为 一 个 一 个 连续 的 地 址 范围 ，vmalloc 返回 0 ( NULL 地 址 ) 如 果 发 
生 一 个 错误 ， 否 则 ， 它 返回 一 个 指向 一 个 大 小 至 少 为 size 的 连续 内 存 区 . 





















































我 们 这 里 描述 vmalloc 因为 它 是 一 个 基本 的 Linux 内 存 分 配 机 制 。 我 们 应 当 注 意 ， 但 是 ， 
vmalloc 的 使 用 在 大 部 分 情况 下 不 鼓励 ， 从 vmalloc 获得 的 内 存 用 起 来 稍微 低 效 些 ， 并 
且 ， 在 某 些 体系 上 ， 留 给 vmalloc 的 地 址 空间 的 数量 相对 小 . 使 用 vmalloc 的 代码 如 果 
被 提交 来 包含 到 内 核 中 可 能 会 受到 冷遇 ， 如 果 可 能 ， 你 应 当 直 接 使 用 单个 页 而 不 是 试图 使 
用 vmalloc 来 掩饰 事情 . 


























让 我 们 看 看 vmalloc 如 何 工作 的 .这 个 函数 的 原型 和 它 相 关 的 东西 ioremap， 严 格 地 不 
是 一 个 分 配 函 数 ， 在 本 节 后 面 讨论 ) 是 下 列 : 


#include Xlinux/vmalloc. h> 

void *vmalloc(unsigned long size); 

void vfree(void * addr); 

void *ioremap(unsigned long offset, unsigned long size); 
void iounmap(void * addr); 





30 [30] 


= NUMA ( 非 统 一 内 存 存 取 ) 计算 机 是 多 处 理 器 系统 ， 这 里 内 存 对 于 特定 的 处 理 器 组 节点 “) 是 ”局 部 的 “， 对 局 部 内 
存 的 存 取 比 存 取 非 局 部 内 存 更 快 ， 在 这 样 的 系统 ， 在 当前 节点 分 配 内 存 是 重要 的 ， 驱 动作 者 通常 不 必 担 心 NUMA 问题 ， 


但 是 . 
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值得 强调 的 是 kmalloc 和 get free pages 返回 的 内 存 地 址 也 是 虚拟 地 址 .它们 的 实际 
值 在 它 用 在 寻 址 物理 地 址 前 仍然 由 MMU (内 存 管 理 单元 ， 常 常 是 CPU 的 一 部 分 ) 管理 . 777 
vmalloc 在 它 如 何 使 用 硬件 上 没有 不 同 ， 不 同 是 在 内 核 如 何 进 行 分 配 任务 上 . 





















































kmalloc 和 — get free pages 使 用 的 (虚拟 ) 地 址 范围 特有 一 个 一 对 一 映射 到 物理 内 存 ， 
可 能 移 位 一 个 常量 PAGE OFFSET 值 ; 这些 函 数 不 需 要 给 这 个 地 址 范围 修改 页 表 . vmalloc 
和 ioremap 使 用 的 地 址 范围 ， 另 一 方面 ， 是 完全 地 合成 的 ， 并 且 每 个 分 配 建立 (虚拟 ) 内 
存 区 域 ， 通 过 适当 地 设置 页 表 . 


















































这 个 区 别 可 以 通过 比较 分 配 函 数 返回 的 指针 来 获知 ， 在 一 些 平 台 (例如 ，x86)，vmalloc 
返回 的 地 址 只 是 远离 kmalloc 使 用 的 地 址 .在 其 他 平台 上 (例如 ，MIPS，IA-64， 以 及 
x86 64 )， 它 们 属于 一 个 完全 不 同 的 地 址 范围 . 对 vmalloc 可 用 的 地 址 在 从 

VMALLOC START 到 VAMLLOC END 的 范围 中 ，2 个 符号 都 定义 在 “asm/patable. h> 中 . 























vmalloc 分 配 的 地 址 不 能 用 于 微 处 理 器 之 外 ， 因 为 它们 只 在 处 理 器 的 MMU 之 上 才 有 意义 . 
当 一 个 驱动 需要 一 个 真正 的 物理 地 址 (例如 一 个 DMA 地 址 ， 被 外 设 硬件 用 来 驱动 系统 的 总 
线 )， 你 无 法 轻易 使 用 vmalloc. 调用 vmalloc 的 正确 时 机 是 当 你 在 为 一 个 大 的 只 存在 于 
软件 中 的 顺序 缓冲 分 配 内 存 时 ， 重 要 的 是 注意 vamlloc 比 — get free pages 有 更 多 开 
销 ， 因 为 它 必 须 获取 内 存 并 且 建 立 页 表 . 因此， 调用 vmalloc 来 分 配 仅仅 一 页 是 无 意义 
的 . 
























































在 内 核 中 使 用 vmalloc 的 一 个 例子 函数 是 create module 系统 调用 ， 它 使 用 vmalloc 
为 在 创建 的 模块 获得 空间 .模块 的 代码 和 数据 之 后 被 拷贝 到 分 配 的 空间 中 ， 使 用 

copy_from user. 在 这 个 方式 中 ， 模 块 看 来 是 加 载 到 连续 的 内 存 . 你 可 以 验证 ， 同 过 看 
/proc/kallsyms， 模 块 输出 的 内 核 符 号 位 于 一 个 不 同 于 内 核 自身 输出 的 符号 的 内 存 范 围 . 



































使 用 vmalloc 分 配 的 内 存 由 vfree 释放 ， 采 用 和 kfree 释放 由 kmalloc 分 配 的 内 存 的 
相同 方式 . 

















如 同 vmalloc, ioremap 建立 新 页 表 ; 不 同 于 vmalloc， 但 是 ， 它 实际 上 不 分 配 任 何 内 存 . 
ioremap 的 返回 值 是 一 个 特殊 的 虚拟 地 址 可 用 来 存 取 特定 的 物理 地 址 范围 ， 获 得 的 虚拟 地 
址 应 当 最 终 通过 调用 iounmap 来 释放 . 











ioremap 对 于 映射 一 个 PCI 绥 冲 的 (物理) 地址 到 (虚拟 ) 内 核 空间 是 非常 有 用 的 ， 例 如 ， 
它 可 用 来 存 取 一 个 PCI 视频 设备 的 帧 缓冲 ;这 样 的 缓冲 常常 被 映射 在 高 端 物理 地 址 ， 在 
内 核 局 动 时 建立 的 页 表 的 地 址 范围 之 外 .PCI 问题 在 12 章 有 详细 解释 . 


























由 于 可 移植 性 ， 值 得 注意 的 是 你 不 应 当 直 接 存 取 由 ioremap 返回 的 地 址 好 像 是 内 存 指针 . 
你 应 当 一 直 使 用 readb 和 其 他 的 在 第 9 章 介绍 的 I/0 函数 ， 这 个 要 求 适用 因为 一 些 平 
台 ， 例 如 Alpha， 无 法 直接 映射 PCI 内 存 区 到 处 理 器 地 址 空间 ， 由 于 在 PCI 规格 和 
Alpha 处 理 器 之 间 的 在 数据 如 何 传送 方面 的 不 同 . 





















































9o BU 实际 上 ， 一 些 体系 结构 定义 “虚拟 “地 址 为 保留 给 寻 址 物理 内 存 ， 当 这 个 发 生 了 ，Linux 内 核 利用 这 个 特性 
kernel 和 — get free pages 地 址 都 位 于 这 些 地 址 范围 中 的 一 个 ， 这 个 区 别 对 设备 驱动 和 其 他 的 不 直接 包含 到 内 存 管理 
内 核子 系统 中 的 代码 是 透明 的 . 
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ioremap 和 vmalloc 是 面向 页 的 ( 它 通过 修改 页 表 来 工作 ) ; 结果 ， 重 分 配 的 或 者 分 配 的 
大 小 被 调整 到 最 近 的 页 边界 . ioremap 模拟 一 个 非 对 齐 的 映射 通过 “向 下 调整 “被 重 映射 的 
地 址 以 及 通过 返回 第 一 个 被 重 映射 页 内 的 偏 移 . 














vmalloc 的 一 个 小 的 缺点 在 于 它 无 法 在 原子 上 下 文中 使 用 ， 因 为 ， 内 部 地 ， 它 使 用 
kmalloc(GFP KERNEL) 来 获取 页 表 的 存储 ， 并 且 因此 可 能 睡眠 ， 这 不 应 当 是 一 个 问题 
如 果 ^ get free page 的 使 用 对 于 一 个 中 断 处 理 不 足够 好 ， 软 件 设计 需要 一 些 清理 . 


8. 3. 4， 一 个 使 用 虚拟 地 址 的 scull : scullv 


使 用 vmalloc 的 例子 代码 在 scullv 模块 中 提供 .如 同 scullp， 这 个 模块 是 一 个 scull 
的 简化 版 本 ， 它 使 用 一 个 不 同 的 分 配 函 数 来 为 设备 存储 数据 获得 空间 . 

































































这 个 模块 分 配 内 存 一 次 16 W. 分配 以 大 块 方式 进行 来 获得 比 scullp 更 好 的 性 能 ， 并 且 
来 展示 一 些 使 用 其 他 分 配 技术 要 花 很 长 时 间 的 东西 是 可 行 的 ， 使 用 — get free pages 来 
分 配 多 于 一 页 是 易于 失败 的 ， 并 且 就 算 它 成 功 了 ， 它 可 能 是 慢 的 .如同 我 们 前 面 见 到 的 ， 
vmalloc 在 分 配 几 个 页 时 比 其 他 函数 更 快 ， 但 是 当 获 取 单 个 页 时 有 些 慢 ， 因 为 页 表 建 立 的 
F4. scullv 被 设计 象 scullp 一 样 . order 指定 每 个 分 配 的 ”级 数 “ 并 且 缺 省 为 4. 
scullv 和 scullp 之 间 的 位 于 不 同 是 在 分 配 管 理 上 .这 些 代码 行使 用 vmalloc 来 获得 新 
内 存 : 










































































/* Allocate a quantum using virtual addresses */ 
if (!dptr-^data[s pos]) 
{ 
dptr->data[s_pos] = 
(void *)vmalloc(PAGE SIZE << dptr-^order); 
if (!dptr-^datals pos]) 
goto nomem; 
memset(dptr-»data[s pos], 0, PAGE SIZE << dptr-^order); 
} 


以 及 这 些 代码 行 释放 内 存 : 


/* Release the quantum-set */ 
for (i = 0; i < qset; i++) 
if (dptr->data[i]) 
vfree (dptr-^data[i]); 


如 果 你 在 使 能 调试 的 情况 下 编译 2 个 模块 ， 你 能 看 到 它们 的 数据 分 配 通 过 读 取 它们 在 
/proc 创建 的 文件 ， 这 个 快照 从 一 套 x86 64 系统 上 获得 : 





salma% cat /tmp/bigfile > /dev/scullp0; head -5 /proc/scullpmem 
Device 0: qset 500, order 0, sz 1535135 


item at 000001001847da58, qset at 000001001db4c000 


0:1001db56000 
1:1003d1c7000 
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salma% cat /tmp/bigfile > /dev/scullv0; head -5 /proc/scullvmem 
Device 0: qset 500, order 4, sz 1535135 
item at 000001001847da58, qset at 0000010013dea000 
0: ffffff0001177000 
1:ffffff0001188000 


下 面 的 输出 ， 相 反 ， 来 自 x86 系统 : 


rudo% cat /tmp/bigfile > /dev/scullp0; head -5 /proc/scullpmem 
Device 0: qset 500, order 0, sz 1535135 

item at ccf80e00, qset at cf7b9800 

0:ccc58000 

1:eccdd000 

rudo% cat /tmp/bigfile > /dev/scullv0; head -5 /proc/scullvmem 
Device 0: qset 500, order 4, sz 1535135 

item at cfab4800, qset at cf8e4000 

0:d087a000 

1 : d08d2000 


这 些 值 显示 了 2 个 不 同 的 行为 ， 在 x86 _ 64， 物理 地 址 和 虚拟 地 址 是 完全 映射 到 不 同 的 地 
址 范围 ( 0x100 和 0xffffff00)， 而 在 x86 计算 机 上 ，vmalloc ; 虚拟 地 址 只 在 物理 地 
址 使 用 的 映射 之 上 . 


8. 4， 每 -CPU 的 变量 


每 -CPU 变量 是 一 个 有 趣 的 2.6 内 核 的 特性 ， 当 你 创建 一 个 每 -CPU 变量 ， 系 统 中 每 个 处 理 
器 获得 它 自 己 的 这 个 变量 找 贝 ， 这 个 可 能 象 一 个 想 做 的 奇怪 的 事情 ， 但 是 它 有 自己 的 优点 . 
存 取 每 -CPU 变量 不 需要 (几乎 ) 加 锁 ， 因 为 每 个 处 理 器 使 用 它 自 己 的 拷贝 ， 每 -CPU 变量 也 
可 存在 于 它们 各 自 的 处 理 器 绥 存 中 ， 这 样 对 于 频繁 更 新 的 量子 带 来 了 显著 的 更 好 性 能 . 













































































一 个 每 -CPU 变量 的 好 的 使 用 例子 可 在 网 络 子 系统 中 找到 ， 内 核 维护 无 结尾 的 计数 器 来 跟踪 
有 每 种 报 文 类 型 有 多 少 被 接收 ; 这 些 计数 器 可 能 每 秒 几 千 次 地 被 更 新 ， 不 去 处 理 缓存 和 加 
锁 问题 ， 网 络 开发 者 将 统计 计数 器 放 进 每 -CPU 变量 .现在 更 新 是 无 锁 并 且 快 的 ， 在 很 少 的 
机 会 用 户 空 间 请 求 看 到 计数 器 的 值 ， 相 加 每 个 处 理 器 的 版 本 并 且 返 回 总 数 是 一 个 简单 的 事 
dE 


情 . 












































每 -CPU 变量 的 声明 可 在 《linux/percpu. b> 中 找到 ， 为 在 编译 时 间 创 建 一 个 每 -CPU 变量 ， 
使 用 这 个 宏 定义 : 





DEFINE PER CPU(type, name); 


如 果 这 个 变量 ( 称 为 name 的 ) 是 一 个 数组 ， 包 含 这 个 类 型 的 维 数 信息 ， 因 此 ， 一 个 有 3 
个 整数 的 每 -CPU 数组 应 当 被 创建 使 用 : 











DEFINE PER CPU(int[3], my percpu array); 
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每 -CPU 变量 几乎 不 必 使 用 明确 的 加 锁 来 操作 . WE 2.6 内 核 是 可 抢占 的 ; 对 于 一 个 处 理 

器 ， 在 修改 一 个 每 -CPU 变量 的 临界 区 中 不 应 当 被 抢占 ， 并 且 如 果 你 的 进程 在 对 一 个 每 -CPU 
变量 存 取 时 将 ， 要 被 移动 到 另 一 个 处 理 器 上 ， 也 不 好 .因为 这 个 原因 ， 你 必须 显 式 使 用 

get cpu var 宏 来 存 取 当 前 处 理 器 的 给 定 变 量 拷贝 ， 并 且 当 你 完成 时 调用 put cpu var. 

对 get cpu var 的 调用 返回 一 个 lvalue 给 当前 处 理 器 的 变量 版 本 并 且 禁 止 抢占 ， 因 为 
一 个 lvalue 被 返回 ， 它 可 被 赋值 给 或 者 直接 操作 ， 例 如 ， 一 个 网 络 代 码 中 的 计数 器 时 使 
用 这 2 个 语句 来 递增 的 : 





















































get cpu var(sockets in use)-**; 
put cpu var(sockets in use); 


你 可 以 存 取 另 一 个 处 理 器 的 变量 拷贝 ， 使 用 : 





per cpu(variable, int cpu id); 





如 果 你 编写 使 处 理 器 涉及 到 对 方 的 每 -CPU 变量 的 代码 ， 你 ， 当 然 ， 一 定 要 实现 一 个 加 锁 机 
制 来 使 存 取 安全 . 





























动态 分 配 每 -CPU 变量 也 是 可 能 的 ， 这 些 变 量 可 被 分 配 ， 使 用 : 


void *alloc percpu(type); 
void * alloc percpu(size t size, size t align); 





在 大 部 分 情况 ，alloc_percpu 做 的 不 错 ; 你 可 以 调用 — alloc percpu 在 需要 一 个 特别 
的 对 齐 的 情况 下 ， 在 任 一 情况 下 ， 一 个 每 -CPU 变量 可 以 使 用 free_percpu 被 返回 给 系 
统 ， 存 取 一 个 动态 分 配 的 每 -CPU 变量 通过 per cpu ptr 来 完成 : 














per cpu ptr(void *per cpu var, int cpu id); 





这 个 宏 返 回 一 个 指针 指向 per epu var 对 应 于 给 定 cpu id 的 版 本 ， 如 果 你 在 简单 地 读 
男 一 个 CPU 的 这 个 变量 的 版 本 ， 你 可 以 解 引 用 这 个 指针 并 且 用 它 来 完成 ， 如果， 但 是 ， 
你 在 操作 当前 处 理 器 的 版 本 ， 你 可 能 需要 首先 保证 你 不 能 被 移出 那个 处 理 器 .如果 你 存 取 
这 个 每 -CPU 变量 的 全 部 都 持 有 一 个 目 旋 锁 ， 万 事 大 吉 ， 常常 ， 但 是 ， 你 需要 使 用 get_cpu 
来 阻止 在 使 用 变量 时 的 抢占 ， 因 此 ， 使 用 动态 每 -CPU 变量 的 代码 会 看 来 如 此 : 



































int cpu; 

cpu = get cpu(Q 

ptr = per cpu ptr(per cpu var, cpu); 
/* work with ptr */ 

put cpu( ; 





当 使 用 编译 时 每 -CPU AERE, get cpu var 和 put cpu var 宏 来 照看 这 些 细节 ， 动 态 
每 -CPU 变量 需要 更 多 的 显 式 的 保护 . 








每 -CPU 变量 能 够 输出 给 每 个 模块 ， 但 是 你 必须 使 用 一 个 特殊 的 宏 版 本 : 





EXPORT PER CPU SYMBOL (per cpu var); 
EXPORT PER CPU SYMBOL GPL(per cpu var); 
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为 在 一 个 模块 内 存 取 这 样 一 个 变量 ， 声 明 它 ， 使 用 : 








DECLARE PER CPU(type, name); 





DECLARE PER CPU 的 使 用 (不 是 DEFINE PER CPU) 告知 编译 器 进行 一 个 外 部 引用 . 








如 果 你 想 使 用 每 -CPU 变量 来 创建 一 个 简单 的 整数 计数 器 ， 看 一 下 在 
《linux/percpu_counter. h> 中 的 现成 的 实现 最后， 注意 一 些 体 系 有 有 限 数量 的 地 址 空 
间 变 量 给 每 -CPU 变量 .如 果 你 创建 每 -CPU 变量 在 你 自己 的 代码 ， 你 应 当 尽 量 使 它们 小 . 


8. 5， 获 得 大 量 缓冲 


我 们 我 们 已 经 在 前 面 章节 中 注意 到 的 ， 大 量 连 续 内 存 绥 冲 的 分 配 是 容易 失败 的 ， 系统 内 存 
长 时 间 会 雄 片 化 ， 并 且 常 常 出 现 一 个 真正 的 大 内 存 区 会 完全 不 可 得 ， 因 为 常常 有 办 法 不 使 
用 大 缓冲 来 完成 工作 ， 内 核 开发 者 没有 优先 考虑 使 大 分 配 能 工作 .在 你 试图 获得 一 个 大 内 
存 区 之 前 ， 你 应 当真 正 考虑 一 下 其 他 的 选择 .到 目前 止 最 好 的 进行 大 1/0 操作 的 方法 是 
通过 发 散 /汇聚 操作 ， 我 们 在 第 1 章 的 ”发散 -汇聚 映射 一 节 中 讨论 了 . 


8. 5. 1， 在 启动 时 获得 专用 的 缓冲 


如 果 你 真 的 需要 一 个 大 的 物理 上 连续 的 缓冲 ， 最 好 的 方法 是 在 启动 时 请 求 内 存 来 分 配 它 . 
在 启动 时 分 配 是 获得 连续 内 存 页 而 避 开 _ get free pages 施加 的 对 缓冲 大 小 限制 的 唯一 
方法 ， 不 但 最 大 允许 大 小 还 有 限制 的 大 小 选择 ， 在 启动 时 分 配 内 存 是 一 个 ^ 脏 ”技术 ， 因 为 
它 绕 开 了 所 有 的 内 存 管理 策略 通过 保留 一 个 私有 的 内 存 池 . 这 个 技术 是 不 优雅 和 不 灵活 的 ， 
但 是 它 也 是 最 不 易 失 败 的 ， 不 必 说 ， 一 个 模块 无 法 在 启动 时 分 配 内 存 ; 只 有 直接 连接 到 内 
核 的 驱动 可 以 这 样 做 . 




















































































































局 动 时 分 配 的 一 个 明显 问题 是 对 通常 的 用 户 它 不 是 一 个 灵活 的 选择 ， 因 为 这 个 机 制 只 对 连 
接 到 内 核 映 象 中 的 代码 可 用 ， 一 个 设备 驱动 使 用 这 种 分 配方 法 可 以 被 安装 或 者 替换 只 能 通 
过 重新 建立 内 核 并 且 重 局 计算 机 . 











当 内 核 被 启动 ， 它 赢得 对 系统 种 所 有 可 用 物理 内 存 的 存 取 . 它 接 着 初始 化 每 个 子 系统 通过 
调用 子 系统 的 初始 化 函数 ， 允 许 初始 化 代码 通过 减少 留 给 正常 系统 操作 使 用 的 RAM 数量 ， 
来 分 配 一 个 内 存 缓冲 给 自己 用 . 





























局 动 时 内 存 分 配 通 过 调用 下 面 一 个 函数 进行 : 


Hinclude <linux/bootmem. h> 

void *alloc bootmem (unsigned long size); 

void *alloc bootmem low(unsigned long size); 

void *alloc bootmem pages(unsigned long size); 
void *alloc bootmem low pages(unsigned long size); 





这 些 函 数 分 配 或 者 整个 页 (如 果 它 们 以 pages 结尾 ) 或 者 非 页 对 齐 的 内 存 区 ， 分配 的 内 存 
可 能 是 高 端 内 存 除非 使 用 一 个 _low 版 本 ， 如 果 你 在 为 一 个 设备 驱动 分 配 这 个 缓冲 ， 你 可 
能 想 用 它 做 DMA 操作 ， 并 且 这 对 于 高 端 内 存 不 是 一 直 可 能 的 ; 因此， 你 可 能 想 使 用 一 个 
low 变 体 . 














196 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] O O O 0O IO [] O Linux[] HD] E] UE [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 

















一 个 接口 释放 这 个 内 存 : 


void free bootmem(unsigned long addr, unsigned long size); 





注意 以 这 个 方式 释放 的 部 分 页 不 返回 给 系统 -- 但 是 ， 如 果 你 在 使 用 这 个 技术 ， 你 已 可 能 
分 配 了 不 少数 量 的 整 页 来 用 . 


























如 果 你 必须 使 用 启动 时 分 配 ， 你 需要 直接 连接 你 的 驱动 到 内 核 ， 应 当 如 何 完 成 的 更 多 信息 
看 在 内 核 源码 中 Documentation/kbuild 下 的 文件 . 


8. 6， 快 速 参考 


相关 于 内 存 分 配 的 函数 和 符号 是 : 





#include <linux/slab. h> 
void *kmalloc(size t size, int flags); 
void kfree(void *obj); 


内 存 分 配 的 最 常用 接口 . 





Sinclude <linux/mm. h> 
GFP_USER 

GFP KERNEL 

GFP_NOFS 

GFP NOIO 

GFP ATOMIC 


控制 内 存 分 配 如 何 进 行 的 标志 ， 从 最 少 限制 的 到 最 多 的 . GFP_USER 和 GFP_KERNEL 
优先 级 允许 当前 进程 被 置 为 睡眠 来 满足 请 求 . GFP_NOFS 和 GFP NOIO 禁止 文件 系 
统 操作 和 所 有 的 L/O 操作 ， 分 别 地 ， 而 GFP ATOMIC 分 配 根本 不 能 睡眠 . 

















. GFP. DMA 

.. GFP HIGHMEM 
.. GFP. COLD 

... GFP. NOWARN 

. GFP. HIGH 

.. GFP. REPEAT 

.. GFP. NOFAIL 

.. GFP. NORETRY 


这 些 标志 修改 内 核 的 行为 ， 当 分 配 内存 时 . 


#include Xlinux/malloc.h»? 

kmem cache t *kmem cache create(char *name, size t size, size t offset, 
unsigned long flags, constructor(), destructor( )); 

int kmem cache destroy (kmem cache t *cache); 
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创建 和 销毁 一 个 slab 缓存 ， 这 个 缓存 可 被 用 来 分 配 几 个 相同 大 小 的 对 象 

















SLAB NO REAP 
SLAB HWCACHE ALIGN 
SLAB CACHE DMA 








在 创建 一 个 缓存 时 可 指定 的 标志 . 


SLAB CTOR ATOMIC 
SLAB CTOR CONSTRUCTOR 


分 配器 可 用 传递 给 构造 函数 和 析 构 函数 的 标志 . 





void *kmem cache alloc(kmem cache t *cache, int flags); 
void kmem cache free(kmem cache t *cache, const void *obj); 





从 缓存 中 分 配 和 释放 一 个 单个 对 象 . /proc/slabinfo 一 个 包含 对 slab 缓存 使 用 
情况 统计 的 虚拟 文件 . 


H#include <linux/mempool. h> 

mempool t *mempool create(int min nr, mempool alloc t x*alloc fn, 
mempool free t *free fn, void *data); 

void mempool destroy (mempool t *pool); 





创建 内 存 池 的 函数 ， 它 试图 避免 内 存 分 配 设备 ， 通 过 保持 一 个 已 分 配 项 的 “紧急 列 
K”. 


void *mempool alloc(mempool t *pool, int gfp mask); 
void mempool free(void *element, mempool t *pool); 


从 (并 且 返 回 它 们 给 ) 内 存 池 分 配 项 的 函数 . 


unsigned long get zeroed page(int flags); 
unsigned long get free page(int flags); 
unsigned long get free pages(int flags, unsigned long order); 


面向 页 的 分 配子 数 . get zeroed page 返回 一 个 单个 的 ， 零 填充 的 页 这 个 调用 的 
所 有 的 其 他 版 本 不 初始 化 返回 页 的 内 容 . 


int get order(unsigned long size); 


返回 关联 在 当前 平台 的 大 小 的 分 配 级 别 ， 根 据 PAGE_SIZE， 这 个 参数 必须 是 2 的 
项 ， 并 且 返 回 值 至 少 是 0. 


void free page(unsigned long addr); 
void free pages(unsigned long addr, unsigned long order); 














释放 面向 页 分 配 的 函数 . 
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struct page *alloc pages node(int nid, unsigned int flags, unsigned int order); 
struct page *alloc pages(unsigned int flags, unsigned int order); 
struct page *alloc page(unsigned int flags); 


Linux 内 核 中 最 底层 页 分 配器 的 所 有 变 体 . 


void free page(struct page **page); 
void free pages(struct page *page, unsigned int order); 
void free hot page(struct page *page); 








J 


使 用 一 个 alloc page 形式 分 配 的 页 的 各 种 释放 方法 . 


Hinclude Xlinux/vmalloc. h> 

void * vmalloc(unsigned long size); 

void vfree(void * addr); 

include Xasm/io. h> 

void * ioremap(unsigned long offset, unsigned long size); 
void iounmap (void *addr); 





分 配 或 释放 一 个 连续 虚拟 地 址 空间 的 函数 . iormap 存 取 物理 内 存 通过 虚拟 地 址 ， 
而 vmalloc SZW. EH ioreamp 映射 的 区 是 iounmap 释放 ， 而 从 
vmalloc 获得 的 页 使 用 vfree 来 释放 . 








Sinclude <linux/percpu. h> 
DEFINE PER CPU(type, name); 
DECLARE PER CPU(type, name); 


定义 和 声明 每 -CPU 变量 的 宏 . 


per cpu(variable, int cpu id) 
get cpu var(variable) 
put cpu var(variable) 


提供 对 静态 声明 的 每 -CPU 变量 存 取 的 宏 . 


void *alloc percpu(type); 
void * alloc percpu(size t size, size t align); 
void free percpu(void *variable); 


进行 运行 时 分 配 和 释放 每 -CPU 变量 的 函数 . 


int get cpu( ); 
void put cpu( ) ; 
per cpu ptr(void *variable, int cpu id) 








get cpu 获得 对 当前 处 理 器 的 引用 (因此 ， 阻 止 抢占 和 移动 到 另 一 个 处 理 器 ) 并 且 返 
回 处 理 器 的 ID; put cpu 返回 这 个 引用 .为 存 取 一 个 动态 分 配 的 每 -CPU 变量 ， 用 
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应 当 被 存 取 版 本 所 在 的 CPU 的 ID 来 使 用 per_cpu_ptr， 对 一 个 动态 的 每 -CPU AE 
量 当前 CPU 版 本 的 操作 ， 应 当 用 对 get cpu 和 put cpu 的 调用 来 包围 . 





Sinclude Xlinux/bootmem. h> 

void *alloc bootmem(unsigned long size); 

void *alloc bootmem low(unsigned long size); 

void *alloc bootmem pages(unsigned long size); 

void *alloc bootmem low pages(unsigned long size); 

void free bootmem(unsigned long addr, unsigned long size); 





在 系统 局 动 时 进行 分 配 和 释放 内 存 的 函数 (只 能 被 直接 连接 到 内 核 中 去 的 驱动 使 用 ) 
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第 9 章 与 硬件 通讯 


尽管 摆弄 scull 和 类 似 的 玩具 是 对 于 Linux 设备 驱动 的 软件 接口 一 个 很 好 的 入 门 ， 但 是 
实现 一 个 真正 的 设备 需要 人 硬件 .驱动 是 软件 概念 和 硬件 电路 之 间 的 抽象 层 ; 如 同 这 样 ， 需 
要 与 两 者 沟通 .直到 现在 ， 我 们 已 经 检查 了 软件 概念 的 内 部 ;本章 完成 这 个 图 像 通 过 向 你 
展示 一 个 驱动 如 何 存 取 1/0 端口 和 1/0 内 存 ， 同 时 在 各 种 Linux 平台 是 可 移植 的 . 





























本 章 继 续 尽 可 能 保持 独立 于 特殊 的 硬件 的 传统 ， 但 是 ， 在 需要 一 个 特殊 例子 的 地 方 ， 我 们 
使 用 简单 的 数字 1/0 端口 (例如 标准 的 PC 并 口 ) 来 展示 1/0 指令 如 何 工 作 ， 以 及 正常 的 
帧 缓存 视频 内 存 来 展示 内 存 映 射 的 1/0. 











我 们 选择 简单 的 数字 I/0， 因 为 它 是 一 个 输入 /输出 打开 的 最 简单 形式 ， 同样， 并口 实现 
原始 1/0 并 且 在 大 部 分 计算 机 都 有 : 写 到 设备 的 数据 位 出 现在 输出 管 脚 上 ， 并 且 人 处 理 器 
可 直接 存 取 到 输入 管 脚 上 的 电 平 ， 实 际 上 ， 你 不 得 不 连接 LED 或 者 一 个 打印 机 到 端口 上 
来 真正 地 看 到 一 个 数组 1/0 操作 的 结果 ， 但 是 底层 硬件 非常 易于 使 用 . 


9.1. I/O 端口 和 I/O 内 存 


每 个 外 设 都 是 通过 读 写 它 的 寄存 器 来 控制 ， 大 部 分 时 间 一 个 设备 有 几 个 寄存 器 ， 并 且 在 连 
续 地 址 存 取 它们 ， 或 者 在 内 存 地 址 空间 或 者 在 1/0 地 址 空间 . 









































在 硬件 级 别 上 ， 内 存 区 和 1/0 区 域 没 有 概念 上 的 区 别 : 它们 都 是 通过 在 地 址 总 线 和 控制 
总 线 上 发 出 电信 号 来 存 取 ( 即 ， 读 写 信号 ) “并 且 读 自 或 者 写 到 数据 总 线 . 














但 是 一 些 CPU 制造 商 在 他 们 的 芯片 上 实现 了 一 个 单个 地 址 空间 ， 有 人 认为 外 设 不 同 于 内 
存 ， 因 此 ， 应 该 有 一 个 分 开 的 地 址 空间 ， 一 些 处 理 器 (最 有 名 的 是 x86 家 族 ) 有 分 开 的 读 
和 写 电线 给 1/0 端口 和 特殊 的 CPU 指令 来 存 取 端 口 . 











因为 外 设 被 建立 来 适合 一 个 外 设 总 线 ， 并 且 大 部 分 流行 的 1/0 总 线 成 型 在 个 人 计算 机 上 ， 
即便 那些 没有 单独 地 址 空间 给 L/O 端口 的 处 理 器 ， 也 必须 在 存 取 一 些 特殊 设备 时 伪装 读 
写 端口 ， 常 常 利用 外 部 的 芯 记 组 或 者 CPU 核 的 额外 电路 ， 后 一 个 方法 在 用 在 嵌入 式 应 用 
的 小 处 理 器 中 常见 . 












































由 于 同样 的 理由 ，Linux 在 所 有 它 运行 的 计算 机 平台 上 实现 了 1/0 端口 的 概念 ， 甚 至 在 
那些 CPU 实现 一 个 单个 地 址 空间 的 平台 上 ， 端 口 存 取 的 实现 有 时 依赖 特殊 的 主机 制造 和 
型 号 ( 因为 不 同 的 型 号 使 用 不 同 的 芯片 组 来 映射 总 线 传送 到 内 存 地 址 空间 ). 

















即便 外 设 总 线 有 一 个 单独 的 地 址 空间 给 I/0 端口 ， 不 是 所 有 的 设备 映射 它们 的 寄存 器 到 
I/0 端口 ， 虽 然 对 于 ISA 外 设 板 使 用 1/0 端口 是 普遍 的 ， 大 部 分 PCI 设备 映射 寄存 器 
到 一 个 内 存 地 址 区 ， 这 种 I/0 内 存 方法 通常 是 首选 的 ， 因 为 它 不 需要 使 用 特殊 目的 处 理 
器 指令 ; CPU 核 存 取 内 存 更 加 有 效 ， 并 且 编译 器 当 存 取 内 存 时 有 更 多 自由 在 寄存 器 分 配 和 
寻 址 模式 的 选择 上 . 















































32 [32] 











不 是 所 有 的 计算 机 平台 使 用 一 个 读 和 一 个 写 信号 ; 有 些 有 不 同 的 方法 来 寻 址 外 部 电路 .这 个 不 同 在 软件 层次 是 无 
关 的 ， 但 是 ， 我 们 将 假设 全 部 有 读 和 写 来 简化 讨论 . 
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9.1.1. I/O 寄存 器 和 常规 内 存 


不 管 硬件 寄存 器 和 内 存 之 间 的 强 相似 性 ， 存 取 I/0 寄存 器 的 程序 员 必 须 小 心 避免 被 
CPU (或 者 编译 器 ) 优 化 所 戏弄 ， 它 可 能 修改 希望 的 1/0 行为 . 


4 








1/0 寄存 器 和 RAM 的 主要 不 同 是 I/0 操作 有 边际 效果 ， 而 内 存 操 作 没有 : 一 个 内 存 写 的 
唯一 效果 是 存储 一 个 值 到 一 个 位 置 ， 并 且 一 个 内 存 读 返回 最 近 写 到 那里 的 值 ， 因 为 内 存 存 
取 速 度 对 CPU 性 能 是 至 关 重 要 的 ， 这 种 无 边际 效果 的 情况 已 被 多 种 方式 优化 : 值 被 缓存 ， 
并 且 读 / 写 指令 被 重 编排 . 

















编译 器 能 够 缓存 数据 值 到 CPU 寄存 器 而 不 写 到 内 存 ， 并 且 即 便 它 存储 它们 ， 读 和 写 操 作 
都 能 够 在 缓冲 内 存 中 进行 而 不 接触 物理 RAM， 重 编排 也 可 能 在 编译 器 级 别 和 在 人 硬件 级 别 都 
RE: 常 第 一 个 指令 序列 能 够 执行 得 更 快 ， 如 果 它 以 不 同 于 在 程序 文本 中 出 现 的 顺序 来 执 
行 ， 例 如 ， 为 避免 在 RISC 流水 线 中 的 互 锁 在 CISC 处 理 器 ， 要 花费 相当 数量 时 间 的 操 
作 能 够 和 其 他 的 并 发 执行 ， 更 快 的 . 


























当 应 用 于 传统 内 存 时 (至 少 在 单 处理 器 系统 ) 这 些 优 化 是 透明 和 有 益 的 ， 但 是 它们 可 能 对 正 
(my I/O 操作 是 致命 的 ， 因 为 它们 干扰 了 那些 ”边际 效果 “， 这 是 主要 的 原因 为 什么 一 个 
驱动 存 取 I/0 寄存 器 . 处理 器 无 法 预见 这 种 情形 ， 一 些 其 他 的 操作 (在 一 个 独立 处 理 器 上 
运行 ， 或 者 发 生 在 一 个 1/0 控制 器 的 事情 ) 依赖 内 存 存 取 的 顺序 .编译 器 或 者 CPU 可 能 
只 尽力 胜 过 你 并 且 重 编排 你 请 求 的 操作 ; 结果 可 能 是 奇怪 的 错误 而 非常 难于 调试 . 因此 ， 
一 个 驱动 必须 确保 没有 进行 缓冲 并 且 在 存 取 寄 存 器 时 没有 发 生 读 或 写 的 重 编排 . 











zu 





















































硬件 缓冲 的 问题 是 最 易 面 对 的 :底层 的 硬件 已 经 配置 (或 者 自动 地 或 者 通过 Linux 初始 化 
代码 ) 成 禁止 任何 硬件 缓冲 ， 当 存 取 I/0 区 时 (不 管 它们 是 内 存 还 是 端口 区 域 ). 














对 编译 器 优化 和 硬件 重 编排 的 解决 方法 是 安放 一 个 内 存 屏 隐 在 必须 以 一 个 特殊 顺序 对 硬件 
(或 者 男 一 个 处 理 器 ) 可 见 的 操作 之 间 . Linux 提供 4 个 宏 来 应 对 可 能 的 排序 需要 : 














Hinclude <linux/kernel. h> 
void barrier (void) 





这 个 函数 告知 编译 器 插入 一 个 内 存 屏障 但 是 对 便 件 没有 影响 ， 编 译 的 代码 将 所 有 的 
当前 改变 的 并 且 驻 留 在 CPU 寄存 器 的 值 存 储 到 内 存 ， 并 且 后 来 重新 读 取 它 们 当 需 
要 时 .对 屏障 的 调用 阻止 编译 器 跨越 屏障 的 优化 ， 而 留 给 硬件 自由 做 它 的 重 编 排 . 

















#include <asm/system. h> 

void rmb (void) ; 

void read barrier depends (void) ; 
void wmb (void) ; 

void mb (void); 


这 些 函 数 插入 硬件 内 存 屏障 在 编译 的 指令 流 中 ; 它们 的 实际 实例 是 平台 相关 的 .一 
个 rmb ( read memory barrier) 保证 任何 出 现 于 屏障 前 的 读 在 执行 任何 后 续 读 之 
前 完成 ，wmb 保证 写 操作 中 的 顺序 ， 并 且 mb 指令 都 保证 ， 每 个 这 些 指 令 是 一 个 屏 
障 的 超 集 . 
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read barrier depends 是 读 屏 障 的 一 个 特殊 的 ， 弱 些 的 形式 ， 而 rmb 阻止 所 有 器 
越 屏障 的 读 的 重 编排 ，read_ barrier depends 只 阻止 依赖 来 自 其 他 读 的 数据 的 读 
的 重 编排 .区 别 是 微小 的 ， 并 且 它 不 在 所 有 体系 中 存在 .除非 你 确切 地 理解 做 什么 ， 
并 且 你 有 理由 相信 ， 一 个 完整 的 读 屏 障 确实 是 一 个 过 度 地 性 能 开销 ， 你 可 能 应 当 坚 
持 使 用 rmb. 






































void smp rmb (void); 
void smp read barrier _ depends (void) ; 
void smp wmb (void) ; 
void smp mb (void); 


屏障 的 这 些 版 本 仅 当 内 核 为 SMP 系统 编译 时 插入 硬件 屏障 ， 否则， 它们 都 扩展 为 
一 个 简单 的 屏障 调用 . 








在 一 个 设备 驱动 中 一 个 典型 的 内 存 屏障 的 用 法 可 能 有 这 样 的 形式 : 


writel(dev-^registers.addr, io destination address); 
writel(dev-^registers.size, io size); 
writel(dev-^registers.operation, DEV READ); 

wmb () ; 

writel(dev-^registers.control, DEV GO); 











在 这 种 情况 ， 是 重要 的 ， 确 保 所 有 的 控制 一 个 特殊 操作 的 设备 寄存 器 在 告诉 它 开 始 前 已 被 
正确 设置 ， 内 存 屏障 强制 写 以 需要 的 顺序 完成 . 



































因为 内 存 屏障 影响 性 能 ， 它 们 应 当 只 用 在 确实 需要 它们 的 地 方 ， 屏障 的 不 同类 型 也 有 不 同 
的 性 能 特性 ， 因 此 值得 使 用 最 特定 的 可 能 类 型 例如， 在 x86 体系 上 ，wmb() 目前 什么 
都 不 做 ， 因 为 写 到 处 理 器 外 不 被 重 编排 ， 但 是 ， 读 被 重 编排 ， 因 此 mbO 被 wmbO 慢 . 





























值得 注意 大 部 分 的 其 他 的 处 理 同步 的 内 核 原 语 ， 例 如 自 旋 锁 和 原子 的 t 操作 ， 如 同 内 存 
屏障 一 样 是 函数 . 还 值得 注意 的 是 一 些 外 设 总 线 ( 例 如 PCI 总 线 ) 有 它们 自己 的 缓冲 问题 ; 
我 们 在 以 后 章节 遇 到 时 讨论 它们 . 














一 些 体系 允许 一 个 赋值 和 一 个 内 存 屏 障 的 有 效 组 合 . 内 核 提 供 了 几 个 宏 来 完成 这 个 组 合 ; 
在 缺 省 情况 下 ， 它 们 如 下 定义 : 


Hdefine set mb(var, value) do {var = value; mb();} while 0 
Hdefine set wmb(var, value) do {var = value; wmb();j while 0 
Hdefine set rmb(var, value) do {var = value; rmb();) while 0 





在 合适 的 地 方 , CXasm/system.h» 定义 这 些 宏 来 使 用 体系 特定 的 指令 来 很 快 完 成 任务 ， 注 
意 set_rmb 只 在 少量 体系 上 定义 . (一 个 do...while 结构 的 使 用 是 一 个 标准 C Hiis, 
来 使 被 扩展 的 宏 作为 一 个 正常 的 C 语句 可 在 所 有 上 下 文中 工作 ). 


9.2. 使 用 I/O 端口 
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1/0 端口 是 驱动 用 来 和 很 多 设备 通讯 的 方法 ， 至 少 部 分 时 间 ， 这 节 涉 及 可 用 的 各 种 函数 来 
使 用 1/0 端口 ; 我们 也 触及 一 些 可 移植 性 问题 


9.2.1. 1/0 端口 分 配 
如 同 你 可 能 希望 的 ， 你 不 应 当 离 开 并 开始 抒 击 L/O 端口 而 没有 首先 确认 你 对 这 些 端口 有 


唯一 的 权限 .内 核 提 供 了 一 个 注册 接口 以 允许 你 的 张 动 来 声明 它 需 要 的 端口 . 这 个 接口 中 
的 核心 的 函数 是 request region: 





























Sinclude Xlinux/ioport. h> 
struct resource *request region(unsigned long first, unsigned long n, const 
char *name); 








这 个 函数 告诉 内 核 ， 你 要 使 用 n 个 端口 ， 从 first 开始 ，name 参数 应 当 是 你 的 设备 的 
名 子 。 如 果 分 配 成 功 返回 值 是 非 NULL， 如 果 你 从 request_region 得 到 NULL， 你 将 无 法 
使 用 需要 的 端口 






































所 有 的 的 端口 分 配 显示 在 /proc/ioports 中 .如 果 你 不 能 分 配 一 个 需要 的 端口 组 ， 这 是 
地 方 来 看 看 谁 先 到 那里 了 . 








当 你 用 完 一 组 IZ0 端口 (在 模块 释 载 时 ， 也 许 )， 应 当 返 回 它 们 给 系统 ， 使 用 : 


void release region(unsigned long start, unsigned long n); 








还 有 一 个 函数 以 允许 你 的 驱动 来 检查 是 否 一 个 给 定 的 1/0 端口 组 可 用 : 


int check region(unsigned long first, unsigned long n); 





这 里 ， 如 果 给 定 的 端口 不 可 用 ， 返 回 值 是 一 个 负 错 误 码 ， 这 个 函数 是 不 推荐 的 ， 因 为 它 的 
返回 值 不 保证 是 否 一 个 分 配 会 成 功 ; 检查 和 后 来 的 分 配 不 是 一 个 原子 的 操作 ， 我们 列 在 这 
里 因为 几 个 驱动 仍然 在 使 用 它 ， 但 是 你 调用 一 直 使 用 request_region， 它 进行 要 求 的 加 
锁 来 保证 分 配 以 一 个 安全 的 原子 的 方式 完成 . 





9. 2. 2， 操 作 I/O 端口 








在 驱动 硬件 请 求 了 在 它 的 活动 中 需要 使 用 的 1/0 端口 范围 之 后 ， 它 必须 读 且 /或 写 到 这 些 
端口 ， 为 此 ， 大 部 分 硬件 区 别 8- 位 ，16- 位 ， 和 32- 位 端口 ， 常 常 你 无 法 混合 它们 ， 象 你 
正常 使 用 系统 内 存 存 取 一 样 . 至 ” 




















一 个 C 程序 ， 因 此 ， 必 须 调用 不 同 的 函数 来 存 取 不 同 大 小 的 端口 ， 如 果 在 前 一 节 中 建议 
的 ， 只 支持 唯一 内 存 映射 I/0 寄存 器 的 计算 机 体系 伪装 端口 D/O ， 通 过 重新 映射 端口 地 
址 到 内 存 地 址 ， 并 且 内 核 向 驱动 隐藏 了 细节 以 便 易于 移植 .Linux 内 核 头 文件 (特别 地 ， 
体系 依赖 的 头 文件 “asm/io.h>) 定义 了 下 列 内 联 函数 来 存 取 1/0 端口 : 






































33 [33] 


























有 时 1/0 端口 象 内 存 一 样 安排， 你 可 (例如 ) 绑 定 2 个 8- 位 写 为 一 个 单个 16- 位 操作 . 例如， 这 应 用 于 
PC 视频 板 ， 但 是 通常 ， 你 不 能 指望 这 个 特 


























(E 
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unsigned inb(unsigned port); 
void outb(unsigned char byte, unsigned port); 


读 或 写字 节 端 口 ( 8 位 宽 ). port 参数 定义 为 unsigned long 在 某 些 平台 以 及 
unsigned short 在 其 他 的 上 ，inb 的 返回 类 型 也 是 跨 体系 而 不 同 的 . 


unsigned inw(unsigned port); 
void outw(unsigned short word, unsigned port); 


这 些 函数 存 取 16-4 端口 ( 一 个 字 宽 ) ; 在 为 S390 平台 编译 时 它们 不 可 用 ， 它 
只 支持 字 节 I/0. 


unsigned inl(unsigned port); 
void outl(unsigned longword, unsigned port); 


这 些 函 数 存 取 32- 位 端口 ， Longword 声明 为 或 者 unsigned long 或 者 unsigned 
int, WEEE. wH I/0, “Long” 1/0 在 S390 上 不 可 用 . 





从 现在 开始 ， 当 我 们 使 用 unsigned 没有 进一步 类 型 规定 时 ， 我 们 指 的 是 一 个 体系 相关 的 
定义 ， 它 的 确切 特性 是 不 相关 的 ， 函 数 儿 乎 一 直 是 可 移植 的 ， 因 为 编译 器 自动 转换 值 在 赋 
值 时 一 它们 是 unsigned 有 助 于 阻止 编译 时 的 警告 ， 这 样 的 转换 不 丢失 信息 ， 只 要 程序 
员 安 排 明 智 的 值 来 避免 溢出 ， 我 们 坚持 这 个 “未 完成 的 类 型 “传统 贯 捉 本 章 . 









































注意 ， 没 有 定义 64- 位 端口 1/0 操作 .甚至 在 64- 位 体系 中 ， 端 口 地 址 空间 使 用 一 个 
32- 位 (最 大 ) 的 数据 通路 . 


9. 2. 3， 从 用 户 空间 的 I/O 存 取 
刚刚 描述 的 这 些 函数 主要 打算 被 设备 张 动 使 用 ， 但 它们 也 可 从 用 户 空 间 使 用 ， 至 少 在 PC- 


类 的 计算 机 . GNU C 库 在 《sys/io.h> 中 定义 它们 . 下列 条 件 应 当 应 用 来 对 于 inb 及 其 
友 在 用 户 空间 代码 中 使 用 : 























。 程序 必须 使 用 -0 选项 编译 来 强制 扩展 内 联 函数 . 

e ioperm 和 iopl 系统 调用 必须 用 来 获得 权限 来 进行 对 端口 的 1/0 操作 . ioperm 
为 单独 端口 获取 许可 ， 而 iopl 为 整个 1/0 空间 获取 许可 这 2 个 函数 都 是 x86 
特有 的 . 

。 程序 必须 作为 root 来 调用 ioperm 或 者 iopl. ”可 选 地 ， 一 个 它 的 祖先 必须 已 
赢得 作为 root 运行 的 端口 权限 . 





如 果 主 机 平台 没有 ioperm 和 iopl 系统 调用 ， 用 户 空间 仍然 可 以 存 取 1/0 端口 ， 通 过 
使 用 /dev/prot 设备 文件 . 注意 ， 但 是 ， 这 个 文件 的 含义 是 非常 平台 特定 的 ， 并 且 对 任 
何 东西 除了 PC 不 可 能 有 用 . 














34 [84] 




















技术 上 ， 它 必须 有 CAP SYS RAWIO 能 力 ， 但 是 在 大 部 分 当前 系统 中 这 是 与 作为 root 运行 是 同样 的 . 
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例子 源码 misc-progs/inp.c 和 misc-progs/outp.c 是 一 个 从 命令 行 读 写 端 口 的 小 工具 ， 
在 用 户 空 间 . 它们 希望 被 安装 在 多 个 名 子 下 〈 例 如 ，inb，inw， 和 inl 并 且 操作 字 节 ， 字 ， 
或 者 长 端口 依赖 于 用 户 调用 哪个 名 子 )， 它 们 使 用 ioperm 或 者 iopl Æ x86 下 ， 在 其 他 


平台 是 /dev/port. 


























程序 可 以 做 成 setuid root， 如 果 你 想 过 危险 生活 并 且 在 不 要 求 明 确 的 权限 的 情况 下 使 用 
你 的 硬件 .但 是 ， 请 不 要 在 产品 系统 上 以 set-uid 安装 它们 ; 它们 是 设计 上 的 安全 漏洞 . 


9. 2. 4， 字 串 操作 


除了 单 发 地 输入 和 输出 操作 ， 一 些 处 理 器 实现 了 特殊 的 指令 来 传送 一 系列 字 节 ， 字 ， 或 者 
长 字 到 和 自 一 个 单个 1/0 端口 或 者 同样 大 小 ， 这 是 所 谓 的 字 串 指令 ， 并 且 它 们 完成 任务 
比 一 个 语言 循环 能 做 的 更 快 ， 下 列 宏 定 义 实 现 字 串 处 理 的 概念 或 者 通过 使 用 一 个 单个 
机 器 指令 或 者 通过 执行 一 个 紧凑 的 循环 ， 如 果 目 标 处 理 器 没有 进行 字 串 I/0 的 指令 . 当 
编译 为 S390 平台 时 这 些 宏 定义 根本 不 定义 ， 这 应 当 不 是 个 移植 性 问题 ， 因 为 这 个 平台 通 
常 不 与 其 他 平台 共享 设备 驱动 ， 因 为 它 的 外 设 总 线 是 不 同 的 . 







































































字 串 函数 的 原型 是 : 


void insb(unsigned port, void *addr, unsigned long count); 
void outsb(unsigned port, void *addr, unsigned long count); 


读 或 写 从 内 存 地 址 addr 开始 的 count FE. 数据 读 自 或 者 写 入 单个 port wH. 


void insw(unsigned port, void *addr, unsigned long count); 
void outsw(unsigned port, void *addr, unsigned long count); 


读 或 写 16- 位 值 到 一 个 单个 16- 位 端口 . 


void insl(unsigned port, void *addr, unsigned long count); 
void outsl(unsigned port, void *addr, unsigned long count); 


读 或 写 32- 位 值 到 一 个 单个 32-4. 端口 . 








有 件 事 要 记 住 ， 当 使 用 字 串 函数 时 : 它们 移动 一 个 整齐 的 字 节 流 到 或 自 端口 ， 当 端口 和 主 
系统 有 不 同 的 字 节 对 齐 规则 ， 结 果 可 能 是 令 人 惊讶 的 .使 用 inw 读 取 一 个 端口 交换 这 些 
学 节 ， 如 果 需 要 ， 来 使 读 取 的 值 匹 配 主 机 字 节 序 .， 学 串 函 数 ， 相 反 ， 不 进行 这 个 交换 . 























9.2.5. #4> I/O 





些 平台 - 最 有 名 的 i386 - 可 能 有 问题 当 处 理 器 试图 太 快 传送 数据 到 或 自 总 线 ， 当 处 
理 器 对 于 外 设 总 线 被 过 度 锁定 时 可 能 引起 问题 ( 想 一 下 ISA ) 并 且 可 能 当 设 备 单 板 太 慢 时 
表现 出 来 ， 解决 方法 是 插入 一 个 小 的 延 时 在 每 个 I/0 指令 后 面 ， 如 果 跟 随 着 另 一 个 指令 . 
在 x86 上 ， 这 个 暂停 是 通过 进行 一 个 outb 指令 到 端口 0x80 ( 正常 地 不 是 常常 用 到 ) 
实现 的 ， 或 者 通过 忙 等 待 ， 细 节 见 你 的 平台 的 asm 子 目 录 的 io.h 文件 . 
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如 果 你 的 设备 丢失 一 些 数据 ， 或 者 如 果 你 担心 它 可 能 丢失 一 些 ， 你 可 以 使 用 暂停 函数 代替 
正常 的 那些 ， 和 暂停 函数 正如 前 面 列 出 的 ， 但 是 它们 的 名 子 以 _p 结尾 ; 它们 称 为 inb p, 
outb_p， 等 等 ， 这 些 函 数 定义 给 大 部 分 被 支持 的 体系 ， 尽 管 它 们 常常 扩展 为 与 非 和 暂停 1/0 
同样 的 代码 ， 因 为 没有 必要 额外 和 暂停， 如果 体 系 使 用 一 个 合理 的 现代 外 设 总 线 . 


9.2.6. 平台 依赖 性 
1/0 指令 ， 由 于 它们 的 特性 ， 是 高 度 处 理 器 依赖 的 ， 因 为 它们 使 用 处 理 器 如 何 处 理 移 进 移 


出 的 细节 ， 是 非常 难以 隐藏 系统 间 的 不 同 ， 作 为 一 个 结果 ， 大 部 分 的 关于 端口 1/0 的 源 
码 是 平台 依赖 的 . 


















































你 可 以 看 到 一 个 不 兼容 ， 数 据 类 型 ， 通 过 回 看 函数 的 列表 ， 这 里 参数 是 不 同 的 类 型 ， 基 于 
平台 间 的 体系 不 同 点 ， 例 如 ， 一 个 端口 是 unsigned int Æ x86 (这 里 处 理 器 支持 一 个 
64-KB I/O 空间 )， 但 是 在 别 的 平台 是 unsiged long， 这 里 的 端口 只 是 同 内 存 一 样 的 同一 
个 地 址 空间 中 的 特殊 位 置 . 























其 他 的 平台 依赖 性 来 自 处 理 器 中 的 基本 的 结构 性 不 同 ， 并 且 ， 因 此 ， 无 可 避免 地 ， 我 们 不 
会 进入 这 个 依赖 性 的 细节 ， 因 为 我 们 假定 你 不 会 给 一 个 特殊 的 系统 编写 设备 驱动 而 没有 理 
解 底层 的 硬件， 相反 ， 这 是 一 个 内 核 文 持 的 体系 的 能 力 的 概括 : 














IA-32 (x86) 
x86 64 


这 个 体系 支持 所 有 的 本 章 描述 的 函数 ， 端 口号 是 unsigned short 类 型 . 





IA-64 (Itanium) 

文 持 所 有 函数 ; 端口 是 unsigned long( 以 及 内 存 上 映射 的 ))， 字 串 函 数 用 C 实现 . 
Alpha 

支持 所 有 函数 ， 并 且 端 口 是 内 存 映 射 的 ， 端 口 1/0 的 实现 在 不 同 Alpha 平台 上 是 


不 同 的 ， 根 据 它 们 使 用 的 芯片 组 ， 字 串 函 数 用 C 实现 并 且 定 义 在 
arch/alpha/lib/io.c 中 定义 .端口 是 unsigned long. 














ARM 
端口 是 内 存 映 射 的 ， 并 且 文 持 所 有 函数 ; 字 串 函数 用 C 实现 . 端口 是 unsigned 
int 类 型 . 

Cris 
这 个 体系 不 支持 1/0 端口 抽象 ， 甚 至 在 一 个 模拟 模式 ; 各 种 端口 操作 定义 成 什么 
不 做 . 

M68k 

M68k 
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端口 是 内 存 映射 的 .支持 字 串 函数 ， 并 且 端 口 类 型 是 unsigned char. 


MIPS 
MIPS64 








MIPS 端口 支持 所 有 的 函数 ， 字 串 操 作 使 用 紧凑 汇编 循环 来 实现 ， 因 为 处 理 器 缺乏 
机 器 级 别 的 字 串 I/0.， 端口 是 内 存 映 射 的 ;它们 是 unsigned long. 











PA 
支持 所 有 函数 ; 端口 是 int 在 基于 PCI 的 系统 上 以 及 unsigned short 在 EISA 
系统 ， 除 了 字 串 操作 ， 它 们 使 用 unsigned long 端口 号 . 

PowerPC 

PowerPC64 
支持 所 有 函数 ; 端口 有 unsigned char x 类 型 在 32- 位 系统 上 并 且 unsigned 
long 在 64- 位 系统 上 . 

S390 
类 似 于 M68k， 这 个 平台 的 头 文 件 只 文 持 字 节 宽 的 端口 1/0, MATERE. n 
口 是 char 指针 并 且 是 内 存 映射 的 . 

Super 


端口 是 unsigned int ( 内 存 映射 的 )， 并 且 支 持 所 有 函数 . 


SPARC SPARC64 





再 一 次 ，I/0 空间 是 内 存 映 射 的 ， 端 口 函数 的 版 本 定义 来 使 用 unsigned long im 
H. 








好 奇 的 读者 能 够 从 io.h 文件 中 获得 更 多 信息 ， 这 个 文件 有 时 定义 儿 个 结构 特定 的 函数 ， 
加 上 我 们 在 本 章 中 描述 的 那些 ， 但 是 ， 和 警告 有 些 这 些 文件 是 相当 难 读 的 . 




















有 趣 的 是 注意 没有 x86 家 族 之 外 的 处 理 器 具备 一 个 不 同 的 地 址 空间 给 端口 ， 尽 管 几 个 被 
支持 的 家 族 配备 有 ISA 和 /或 PCI 插 柳 ( 并 且 2 种 总 线 实现 分 开 的 1/0 和 地 址 空间 ). 


























更 多 地 ， 有 些 处 理 器 (最 有 名 的 是 早期 的 Alphas) 缺乏 一 次 移动 一 个 或 2 个 字 节 的 指 

令 . 因此， 它们 的 外 设 世 片 组 模拟 8- 位 和 16- 位 I/O 存 取 ， 通 过 映射 它们 到 内 存 地 
址 空间 的 特殊 的 地 址 范围 ， 因 此 ， 操 作 同 一 个 端口 的 一 个 inb 和 一 个 inw 指令 ， 通 过 
2 个 操作 不 同 地 址 的 32- 位 内 存 读 来 实现 . 斑 运 的 是 ， 所 有 这 些 都 对 设备 驱动 编写 者 隐藏 
了 ， 通 过 本 节 中 描述 的 宏 的 内 部 ， 但 是 我 们 觉得 它 是 一 个 要 注意 的 有 趣 的 特性 . 如果 你 想 
RAIRA, ARE include/asm-alpha/core lca.h 中 的 例子 . 






































"9 单 字 节 1/0 不 是 一 个 人 可 能 想象 的 那么 重要 ， 因 为 它 是 一 个 稀少 的 操作 ， 为 读 / 写 一 个 单字 节 到 任何 地 址 空间 ， 你 
需要 实现 一 个 数据 通道 ， 连 接 寄存 器 组 的 数据 总 线 的 低位 到 外 部 数据 总 线 的 任意 字 节 位 置 ， 这 些 数据 通道 需要 额外 的 坦 
辑 门 在 每 个 数据 传输 的 通道 上 ， 丢 掉 字 节 宽 的 载 入 和 存储 能 够 使 整个 系统 性 能 受益 
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WEB 上 作为 PDF 下 载 . 


9. 3， 一 个 I/O 端口 例子 


我 们 用 来 展示 一 个 设备 驱动 内 的 端口 IZ0 的 例子 代码 ， 操 作 通 用 的 数字 1/0 端口 ; 这 样 
的 端口 在 大 部 分 计算 机 系统 中 找到 . 























一 个 数字 I/0 端口 ， 在 它 的 大 部 分 的 普通 的 化 喘 中 ， 是 一 个 字 节 宽 的 1/0 位 置 ， 或 者 内 
存 映射 的 或 者 端口 映射 的 ， 当 你 写 一 个 值 到 一 个 输出 位 置 ， 在 输出 管 脚 上 见 到 的 电信 和 号 根 
据 写 入 的 单个 位 而 改变 ， 当 你 从 一 个 输入 位 置 读 取 一 个 值 ， 输 入 管 脚 上 所 见 的 当前 逻辑 电 
平 作为 单个 位 的 值 被 返回 . 














这 样 的 1/0 端口 的 实际 实现 和 软件 接口 各 个 系统 不 同 ， 大 部 分 时 间 ，1I/0 管 脚 由 2 个 
1/0 位 置 控 制 : 一 个 允许 选择 使 用 那些 位 作为 输入 ， 哪 些 位 作为 输出 ， 以 及 一 个 可 以 实际 
读 或 写 逻 辑 电 平 的 ， 有 了 时， 但 是 ， 事 情 可 能 更 简单 ， 并 且 这 些 位 是 硬 连 线 为 输入 或 输出 
(但 是 ， 在 这 个 情况 下 ， 它 们 不 再 是 所 谓 的 "通用 1/0); 在 所 有 个 人 计算 机 上 出 现 的 并 口 
是 这 样 一 个 非 通 用 1/0 mA. 任 一 方式 ，IZ0 管 脚 对 我 们 马上 介绍 的 例子 代码 是 可 用 的 . 


9. 3. 1， 并 口 纵览 
因为 我 们 期 望 大 部 分 读者 以 所 谓 的 “个 人 计算 机 “的 形式 使 用 一 个 x86 平台 ， 我 们 觉得 值 


得 解释 一 下 PC 并 口 如 何 设 计 的 .并 口 是 在 个 人 计算 机 上 运行 数字 I/0 例子 代码 的 外 设 
接口 选择 .尽管 大 部 分 读者 可 能 有 并 口 规范 用 ， 为 你 的 方便 ， 我 们 在 这 里 总 结 一 下 它们 . 
























































并 口 ， 在 它 的 最 小 配置 中 ( 我 们 浏览 一 下 ECP 和 EPP 模式 ) 由 3 个 8- 位 端口 组 成 . 
PC 标准 在 0x378 开始 第 一 个 并 口 的 I/0 端口 并 且 第 2 个 在 0x278， 第 一 个 端口 是 一 个 
双向 数据 寄存 器 ; 它 直 接连 接 到 物理 连接 器 的 管 脚 2 - 9. 第 2 个 端口 是 一 个 只 读 状 态 
寄存 器 ; 当 并 口 为 打印 机 使 用 ， 这 个 寄存 器 报告 打印 机 状态 的 几 个 方面 ， 例 如 正在 线 ， 缺 
2X, sU. 58 3 个 端口 是 一 个 只 出 控制 寄存 器 ， 它 ， 在 其 他 东西 中 ， 控 制 是 否 中 断 使 


ou 
He. 




















并 口 通讯 中 使 用 的 信号 电 平 是 标准 的 TTL 电 平 : 0 和 5 (UPS, BETREK 1.2 伏 
特 ， 你 可 依靠 端口 至 少 符合 标准 TTL LS 电流 规格 ， 尽 管 大 部 分 现代 并 口 在 电流 和 电压 额 
定 值 都 工作 的 好 . 














并 口 连接 器 和 计算 机 内 部 电路 不 隔离 ， 当 你 想 直接 连接 逻辑 门 到 这 个 端口 是 有 用 的 ， 但 是 
你 不 得 不 小 心地 正确 连接 线 ; 并 口 电 路 当 你 使 用 你 自己 的 定制 电路 时 容易 损坏 ， 除 非 你 给 
你 的 电路 增加 绝缘 .你 可 以 选择 使 用 插座 并 口 如 果 你 害怕 会 损坏 你 的 主板 . 



































位 的 规范 在 图 并 口 的 管 脚 中 概述 ， 你 可 以 存 取 12 个 输出 位 和 5 个 输入 位 ， 有 些 是 在 
它们 地 信号 路 径 上 逻辑 地 翻转 了 ， 唯 一 的 没有 关联 信和 号 管 脚 的 位 是 端口 2 的 位 4 (0x10), 
它 使 能 来 自 并 口 的 中 断 ， 我 们 使 用 这 个 位 作为 我 们 的 在 第 10 章 中 的 中 断 处 理 的 实现 的 一 


图 9. 1， 并 口 的 管 脚 
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76543210 
EBEN 171314 1 








Control port:base addr-- 2 


irg enable 
6543210 


Data port: base_addr + 0 


Output line 
3 2 Bits 


As | pin# 


noninverted 
inverted 





9. 3. 2， 一 个 例子 驱动 


我 们 介绍 的 驱动 称 为 short (Simple Hardware Operations and Raw Tests). 所 有 它 做 
的 是 读 和 写 几 个 8- 位 端口 ， 从 你 在 加 载 时 选择 的 开始 ， 缺 省 地 ， 它 使 用 分 配给 PC 并 口 
的 端口 范围 ， 每 个 设备 节点 (有 一 个 独特 的 次 编号 ) 存 取 一 个 不 同 的 端口 .short 驱动 不 做 
任何 有 用 的 事情 ; 它 只 是 隔离 来 作为 操作 端口 的 单个 指令 给 外 部 使 用 ， 如 果 你 习惯 端口 
I/0， 你 可 以 使 用 short 来 熟悉 它 ; 你 能 够 测量 它 花费 来 通过 端口 传送 数据 的 时 间或 者 其 
他 游戏 的 时 间 . 




















为 short 在 你 的 系统 上 运行 ， 必 须 有 存 取 底 层 硬 件 设 备 的 自由 ( 缺 省 地 ， 并 口 ) ; 因此 ， 
不 能 有 其 他 驱动 已 经 分 配 了 它 . 大 部 分 现代 发 布设 置 并 口 驱动 作为 只 在 需要 时 加 载 的 模块 ， 
因此 对 1/0 地 址 的 竞争 常常 不 是 个 问题 ， 如 果 ， 但 是 ， 你 从 short 得 到 一 个 “无 法 获得 
I/0 地 址 ”错误 (在 控制 台 上 或 者 在 系统 log 文件 )， 一 些 其 他 的 驱动 可 能 已 经 获得 这 个 
端口 ， 一 个 快速 浏览 /proc/ioports 常常 告诉 你 哪个 驱动 在 捣乱 .同样 的 告诫 应 用 于 男 
外 1/0 设备 如 果 你 没有 在 使 用 并 口 . 

















从 现在 开始 ， 我 们 只 是 用 并口“ 来 简化 讨论 ， 但 是 ， 你 能 够 设置 基本 的 模块 参数 在 加 载 时 
来 重 定向 short 到 其 他 1/0 设备 ， 这 个 特性 允许 例子 代码 在 任何 Linux 平台 上 运行 ， 
这 里 你 对 一 个 数字 1/0 接口 有 权限 通过 outb 和 inb 存 取 ( 尽管 实际 的 硬件 是 内 存 映射 
的 ， 除 x86 外 的 所 有 平台 )， 后面 ， 在 “使 用 I/0 内 存 “ 的 一 节 ， 我 们 展示 short 如 何 用 
来 使 用 通用 的 内 存 映 射 数字 1/0. 














为 观察 在 并 口上 发 生 了 什么 以 及 如 果 你 有 使 用 硬件 的 爱好 ， 你 可 以 焊接 尽管 LED 到 输出 
管 脚 ， 每 个 LED 应 当 串 连 一 个 1-K 电阻 导向 一 个 地 引 脚 (除非 ， 当 然 ， 你 的 LED AANE 
的 电阻 )， 如 果 你 连接 一 个 输出 引 脚 到 一 个 输入 管 脚 ， 你 会 产生 你 自己 的 输入 能 够 从 输入 
端口 读 到 . 
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注意 ， 你 无 法 只 连接 一 个 打印 机 到 并 口 并 且 看 到 数据 发 向 short， 这 个 驱动 实现 简单 的 对 
1/0 端口 的 存 取 ， 并 且 没 有 进行 与 打印 机 需要 的 来 操作 数据 的 握手 ; 在 下 一 章 ， 我 们 展示 
了 一 个 例子 驱动 ( 称 为 shortprint )， 它 能 够 驱动 并 口 打 印 机 ; 这 个 驱动 使 用 中 断 ， 但 是 ， 
因此 我 们 还 是 不 能 到 这 一 点 . 























如 果 你 要 碍 看 并 口 数据 通过 焊接 LED 到 一 个 D- 型 连接 器 ， 我 们 建议 你 不 要 使 用 管 脚 9 
和 管 脚 10， 因 为 我 们 之 后 连接 它们 在 一 起 来 运行 第 10 章 展示 的 例子 代码 . 








只 考虑 到 short, /dev/shortO 写 到 和 读 自 位 于 I/0 基地 址 的 8-bit 端口 ( 0x378, KR 
非 在 加 载 时 间 改 变 ). /dev/shortl 写 到 位 于 基 址 + 1 的 8- 位 ， 等 等 直到 基 址 + 7. 











/dev/short0 进行 的 实际 输出 操作 是 基于 使 用 outb 的 一 个 紧凑 循环 .一 个 内 存 屏 障 指令 
用 来 保证 输出 操作 实际 发 生 并 且 不 被 优化 掉 : 

while (count--) { 

outb(k(ptr-*), port); 


wmb () ; 
} 


你 可 以 运行 下 列 命令 来 点 亮 你 的 LED: 


echo -n “any string” > /dev/short0 








每 个 LED 监视 一 个 单个 的 输出 端口 位 ， 记 住 只 有 最 后 写 入 的 字符 ， 保 持 稳定 在 输出 管 脚 
上 足够 长 时 间 你 的 眼睛 能 感觉 到 因此， 我 们 建议 你 阻止 自动 插入 一 个 结尾 新 行 ， 通 过 传 
递 一 个 -n 选项 给 echo. 





























读 是 通过 一 个 类 似 的 函数 ， 围 绕 inb 而 不 是 outb 建立 的 ， 为 了 从 并 口 读 “ 有 意义 的 “ 值 
你 需要 某 个 硬件 连接 到 连接 器 的 输入 管 脚 来 产生 信号 ， 如 果 没 有 信号 ， 你 会 读 到 一 个 相同 
字 节 的 无 结尾 的 流 ， 如 果 你 选择 从 一 个 输出 端口 读 取 ， 你 极 可 能 得 到 写 到 端口 的 最 后 的 值 
(这 适用 于 并 口 和 普通 使 用 的 其 他 数字 1/0 电路 )， 因 此 ， 那 些 不 喜欢 拿 出 他 们 的 烙铁 的 
人 可 以 读 取 当 前 的 输出 值 在 端口 0x378， 通 过 运行 这 样 一 个 命令 : 


























dd if=/dev/short0 bs=l count=l | od -t xl 





为 演示 所 有 1/0 指令 的 使 用 ， 每 个 short 设备 有 3 个 变形 : /dev/shortO 进行 刚刚 展 
示 的 循环 ，/dev/short0p 使 用 outb p 和 inb p 代替 “快速 函数， 并且 /dev/short0s 
使 用 字 串 指令 .有 8 个 这 样 的 设备 ， 从 short0 到 short7. 尽管 PC 并 口上 只 有 3 个 端 
口 ， 你 可 能 需要 它们 更 多 如 果 使 用 不 同 的 I/0 设备 来 运行 你 的 测试 . 


























short 驱动 进行 一 个 非常 少 的 便 件 控制 ， 但 是 足够 来 展示 如 何 使 用 I/0 端口 指令 ， 感 兴 
趣 的 读者 可 能 想 看 看 parpor 和 parport pc 横 块 的 源码 ， 来 知道 这 个 设备 在 真实 生活 中 
能 有 多 复杂 来 文 持 一 系列 并 口上 的 设备 (打印 机 ， 磁 带 备 份 ， 网 络 接口 ) 


9.4. 使 用 I/0 内 存 
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尽管 1/0 端口 在 x86 世界 中 流行 ， 用 来 和 设备 通讯 的 主要 机 制 是 通过 内 存 映射 的 寄存 器 
和 设备 内 存 .2 者 都 称 为 L/O 内 存 ， 因 为 寄存 器 和 内 存 之 间 的 区 别 对 软件 是 透明 的 . 








R 














1/0 内 存 是 简单 的 一 个 象 RAM 的 区 域 ， 它 被 处 理 器 用 来 跨 过 总 线 存 取 设 备 ， 这 个 内 存 可 
用 作 几 个 目的 ， 例 如 持 有 视频 数据 或 者 以 太 网 报 文 ， 同 时 实现 设备 寄存 器 就 象 1/0 端口 
一 样 的 行为 ( 即 ， 它 们 有 读 和 写 它们 相关 联 的 边际 效果 ). 














存 取 I/0 内 存 的 方式 依赖 计算 机 体系 ， 总 线 ， 和 使 用 的 设备 ， 尽 管 外 设 到 处 都 一 样 . 本 
章 的 讨论 主要 触及 ISA 和 PCI 内 存 ， 而 也 试图 传递 通用 的 信息 ， 尽 管 存 取 PCI 内 存在 
这 里 介绍 ， 一 个 PCI 的 通 透 介绍 安排 在 第 12 3m. 




















依赖 计算 机 平台 和 使 用 的 总 线 ，IVZ0 内 存 可 以 或 者 不 可 以 通过 页 表 来 存 取 ， 当 通过 页 表 存 
取 ， 内 核 必须 首先 安排 从 你 的 驱动 可 见 的 物理 地 址 ， 并 且 这 常常 意味 着 你 必须 调用 
ioremap 在 做 任何 I/0 之 前 ， 如 果 不 需 要 页 表 ，I/0 内 存 位 置 看 来 很 象 1/0 端口 ， 并 且 
你 只 可 以 使 用 正确 的 包装 函数 读 和 写 它们 









































不 管 是 否 需要 ioremap 来 存 取 1/0 内 存 ， 不 鼓励 直接 使 用 1/0 内 存 的 指针 .尽管 (如 同 
TE "I/O 端口 和 1/0 内 存 ” 一 节 中 介绍 的 )1/0 内 存 如 同 在 硬件 级 别 的 正常 RAM 一 样 寻 
HE, £ETI/O 寄存 器 和 传统 内 存 “ 一 节 中 概述 的 额外 的 小 心 建议 避免 正常 的 指针 ， 用 来 存 取 
1/0 内 存 的 包装 函数 在 所 有 平台 上 是 安全 的 并 且 在 任何 时 候 直接 的 指针 解 引用 能 够 进行 操 
作 时 ， 会 被 优化 挥 . 



































因此 ， 尽 管 在 x86 上 解 引用 一 个 指针 能 工作 (在 现在 )， 不 使 用 正确 的 宏 定义 阻碍 了 驱动 
的 移植 性 和 可 读 性 . 


9.4.1. 1/0 内 存 分 配 和 映射 


I/0 内 存 区 必须 在 使 用 前 分 配 . 分 配 内 存 区 的 接口 是 ( 在 《linux/ioport.h> X): 





























struct resource *request mem region(unsigned long start, unsigned long len, 
char *name); 














这 个 函数 分 配 一 个 len 字 节 的 内 存 区 ， 从 start 开始 .如 果 一 切 顺利 ， 一 个 非 NULL fü 
针 返 回 ; 否则 返回 值 是 NULL， 所 有 的 I/0 内 存 分 配 来 /proc/iomem 中 列 出 . 











内 存 区 在 不 再 需要 时 应 当 释 放 : 
void release mem region(unsigned long start, unsigned long len); 


还 有 一 个 旧 的 检查 1/0 内 存 区 可 用 性 的 函数 : 





int check mem region(unsigned long start, unsigned long len); 


但 是 ， 对 于 check_region， 这 个 函数 是 不 安全 和 应 当 避 免 的 . 




















在 存 取 内 存 之 前 ， 分 配 I/0 内 艇 不 是 唯一 的 要 求 的 步骤 .你 必须 也 保证 这 个 1/0 内 存 已 
经 对 内 核 是 可 存 取 的 . 使 用 1/0 内 存 不 只 是 解 引 用 一 个 指针 的 事情 ; 在 许多 系统 ，I/0 
内 存根 本 不 是 可 以 这 种 方式 直接 存 取 的 .因此 必须 首先 设置 一 个 映射 . 这 是 ioremap PK 
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数 的 功能 ， 在 第 1 章 的 “vmalloc 及 其 友 “ 一 节 中 介绍 的 .这 个 函数 设计 来 特别 的 安排 虚 
拟 地 址 给 1/0 内 存 区 











一 旦 装备 了 ioremap (和 iounmap)， 一 个 设备 驱动 可 以 存 取 任何 1/0 内 存 地 址 ， 不 管 是 
否 它 是 直接 映射 到 虚拟 地 址 空间 . WE, æ, MA ioremap 返回 的 地 址 不 应 当 直 接 解 引 
H; 相反 ， 应 当 使 用 内 核 提 供 的 存 取 函 数 ， 在 我 们 进入 这 些 函 数 之 前 ， 我 们 最 好 回顾 一 下 

ioremap 原型 和 介绍 几 个 我 们 在 前 一 章 略 过 的 细节 . 














这 些 函 数 根据 下 列 定义 调用 : 


include <asm/io. h> 

void *ioremap (unsigned long phys_addr, unsigned long size); 

void *ioremap nocache (unsigned long phys_addr, unsigned long size); 
void iounmap(void * addr) ; 


首先 ， 你 注意 新 函数 ioremap nacache. 我们 在 第 8 章 没 有 涉及 它 ， 因 为 它 的 意思 是 明 
前 地 人 硬件 相关 的 .引用 自 一 个 内 核 头 文件 :“It” s useful if some control registers 
are in such an area, and write combining or read caching is not desirable. ^. 
实际 上 ， 函 数 实现 在 大 部 分 计算 机 平台 上 与 ioremap 一 致 : 在 所 有 1/0 内 存 已 经 通过 非 
缓冲 地 址 可 见 的 地 方 ， 没 有 理由 使 用 一 个 分 开 的 ， 非 缓冲 ioremap 版 本 . 


9.4.2. 存 取 I/O 内 存 
在 一 些 平台 上 ， 你 可 能 逃 过 作为 一 个 指针 使 用 ioremap 的 返回 值 的 惩罚 . 这样 的 使 用 不 


是 可 移植 的 ， 更 加 地 内 核 开 发 者 已 经 努力 来 消除 任何 这 样 的 使 用 ， 使 用 1/0 内 
存 的 正确 方式 是 通过 一 系列 为 此 而 提供 的 函数 (通过 Kasm/io.h> 定义 的 ). 








zd 

































































从 L0 内 存 读 ， 使 用 下 列 之 一 : 


unsigned int ioread8 (void *addr); 
unsigned int ioreadl6(void *addr); 
unsigned int ioread32(void *addr); 


XE, addr 应 当 是 从 ioremap 获得 的 地 址 (也许 与 一 个 整 型 偏 移 ) ; 返回 值 是 从 给 定 1/0 
内 存 读 取 的 . 


有 类 似 的 一 系列 函数 来 写 1/0. 内 存 : 





void iowrite8(u8 value, void *addr); 
void iowritel6(ul6 value, void *addr); 
void iowrite32(u32 value, void *addr); 





如 果 你 必须 读 和 写 一 系列 值 到 一 个 给 定 的 L/O 内 存 地 址 ， 你 可 以 使 用 这 些 函 数 的 重复 版 
本 : 





void ioread8 rep(void *addr, void *buf, unsigned long count); 
void ioreadl6 rep(void *addr, void *buf, unsigned long count); 
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void ioread32 rep(void *addr, void *buf, unsigned long count); 

void iowrite8 rep(void *addr, const void *buf, unsigned long count); 
void iowritel6 rep(void *addr, const void *buf, unsigned long count); 
void iowrite32 rep(void *addr, const void *buf, unsigned long count); 


这 些 函 数 读 或 写 count 值 从 给 定 的 buf 到 给 定 的 addr. 注意 count 表达 为 在 被 写 入 
的 数据 大 小 ; ioread32 rep 读 取 count 32- 位 值 从 buf 开始 . 











上 面 描述 的 函数 进行 所 有 的 1/0 到 给 定 的 addr， 如 果 ， 相 反 ， 你 需要 操作 一 块 1/0 地 
址 ， 你 可 使 用 下 列 之 一 : 











void memset io(void *addr, u8 value, unsigned int count); 
void memcpy fromio(void *dest, void *source, unsigned int count); 
void memcpy toio(void *dest, void *source, unsigned int count); 


这 些 函 数 行为 如 同 它们 的 库 类 似 物 . 





如 果 你 通 览 内 核 源码 ， 你 可 看 到 许多 调用 旧 的 一 套 函 数 ， 当 使 用 I/0 内 存 时 .这 些 函 数 
仍然 可 以 工作 ， 但 是 它们 在 新 代码 中 的 使 用 不 或 励 ， 除 了 别 的 外 ， 它 们 较 少 安全 因为 它们 
不 进行 同样 的 类 型 检查 ， 但是， 我 们 在 这 里 描述 它们 : 














unsigned readb (address) ; 
unsigned readw(address); 
unsigned readl (address); 





这 些 宏 定义 用 来 从 1/0 内 存 获取 8- 位 ，16- 位 ， 和 32- 位 数据 值 . 


void writeb(unsigned value, address); 
void writew(unsigned value, address); 
void writel(unsigned value, address); 





如 同 前 面 的 函数 ， 这 些 函 数 ( 宏 ) 用 来 写 8- 位 ，16- 位 ， 和 32- 位 数据 项 . 





一 些 64- 位 平台 也 提供 readq 和 writeq， 为 PCI 总 线 上 的 4- 字 (8- 字 节 ) 内 存 操作 ， 这 
个 4- 字 的 命名 是 一 个 从 所 有 的 真实 处 理 器 有 16- 位 字 的 时 候 的 历史 遗留 ， 实 际 上 ， 用 
作 32- 位 值 的 L 命名 也 已 变 得 不 正确 ， 但 是 命名 任何 东西 可 能 使 事情 更 混淆 


9. 4. 3， 作 为 1/0 内 存 的 端口 


一 些 硬件 有 一 个 有 趣 的 特性 : 一 些 版 本 使 用 I/0 端口 ， 而 其 他 的 使 用 I/0 内 存 ， 输 出 给 
处 理 器 的 寄存 器 在 任 一 种 情况 中 相同 ， 但 是 存 取 方 法 是 不 同 的 ， 作 为 一 个 使 驱动 处 理 这 类 
硬件 的 生活 容易 些 的 方式 ， 并 且 作 为 一 个 使 1/0 端口 和 内 存 存 取 的 区 别 最 小 化 的 方法 ， 
2.6 内 核 提 供 了 一 个 函数 ， 称 为 ioport_map: 







































































void *ioport map(unsigned long port, unsigned int count); 
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这 个 函数 重 映射 count 1/0 端口 和 使 它们 出 现 为 1/0 内 存 ， 从 这 点 以 后 ， 驱 动 可 以 在 返 
回 的 地 址 上 使 用 ioread8 MEA HRA SW EAEN 1/0 端口 . 

















这 个 映射 应 当 在 它 不 再 被 使 用 时 恢复 : 


void ioport unmap(void *addr); 








这 些 函 数 使 1/0 端口 看 来 象 内 存 . 但 是 ， 注 意 1/0 端口 必须 仍然 使 用 request region 
在 它们 以 这 种 方式 被 重 映射 前 分 配 . 


9. 4. 4， 重 用 short 为 I/O 内 存 


short 例子 模块 ， 在 存 取 1/0 端口 前 介绍 的 ， 也 能 用 来 存 取 L/O 内 存 ， 为 此 ， 你 必须 告 
诉 它 使 用 1/0 内 存在 加 载 时 ;还 有 ， 你 需要 改变 基地 址 来 使 它 指向 你 的 I/0 K. 




















例如 ， 这 是 我 们 如 何 使 用 short 来 点 亮 调试 LED， 在 一 个 MPS 开发 板 上 : 


mips. root# ./short load use mem-1 base=0xb7ffffc0 
mips. root# echo -n 7 > /dev/short0 





使 用 short 给 1/0 内 存 是 与 它 用 在 1/0 端口 上 同样 的 . 





下 列 片 段 显 示 了 short 在 写 入 一 个 内 存 位 置 时 用 的 循环 : 


while (count--) { 
iowrite8 kptr-*, address); 
wmb () ; 
j 











注意 ， 这 里 使 用 一 个 写 内 存 屏 障 ， 因 为 在 很 多 体系 上 iowrites8 可 能 转变 为 一 个 直接 赋 
值 ， 需 要 内 存 屏 障 来 保证 以 希望 的 顺序 来 发 生 . 





short 使 用 inb 和 outb 来 显示 它 如 何 完成 ， 对 于 读者 它 可 能 是 一 个 直接 的 练习 ， 但 是 ， 
改变 short 来 使 用 ioport map 重 映 射 I/O 端口 ， 并 且 相 当地 简化 剩 下 的 代码 . 


9.4.5. Æ 1 MB 之 下 的 ISA 内 存 


一 个 最 著名 的 I/0 内 存 区 是 在 个 人 计算 机 上 的 ISA 范围 . 这 是 在 640 KB(OxA0000) 和 1 
MB (0x100000) 之 间 的 内 存 范围 ， 因 此 ， 它 正好 出 现 于 常规 内 存 RAM 中 间 . 这 个 位 置 可 能 
看 起 来 有 点 奇怪 ; 它 是 一 个 在 1980 年 代 早期 所 作 的 决定 的 产物 ， 当 时 640 KB 内 存 看 来 
多 于 任何 人 可 能 用 到 的 大 小 . 




















这 个 内 存 方法 属于 非 直接 映射 的 内 存 类 别 ， 一 你 可 以 读 / 写 几 个 字 节 在 这 个 内 存 范围 ， 如 
同 前 面 解释 的 使 用 short 模块 ， 就 是 ， 通 过 在 加 载 时 设置 use mem. 








尽管 ISA 1/0 内 存 只 在 x86- 类 计算 机 中 存在 ， 我 们 认为 值得 用 几 句 话 和 一 个 例子 驱动 . 
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我 们 不 会 谈论 PCI 在 本 章 ， 因 为 它 是 最 干净 的 一 类 1/0 AF: 一 旦 你 知道 内 存 地 址 ， 你 
可 简单 地 重 映射 和 存 取 它 .PCI 1/0 内 存 的 ”问题 "是 它 不 能 为 本 章 提供 一 个 能 工作 的 例子 ， 
因为 我 们 不 能 事先 知道 你 的 PCI 内 存 映射 到 的 物理 地 址 ， 或 者 是 否 它 是 安全 的 来 存 取 任 
一 这 些 范围 ， 我 们 选择 来 描述 ISA 内 存 范围 ， 因 为 它 不 但 少 干 净 并 且 更 适合 运行 例子 代 
fij. 



































为 演示 存 取 ISA 内 存 ， 我 们 还 使 用 另 一 个 silly 小 模块 ( 例子 源码 的 一 部 分 )， 实 际 上 ， 
这 个 称 为 silly， 作 为 Simple Tool for Unloading and Printing ISA Data 的 缩写 ， 
或 者 如 此 的 东 东 . 





模块 补充 了 short 的 功能 ， 通 过 存 取 整 个 384-KB 内 存 空 间 和 通过 显示 所 有 的 不 同 1/0 
功能 . 它 特 有 4 个 设备 节点 来 进行 同样 的 任务 ， 使 用 不 同 的 数据 传输 函数 .silly 设备 
作为 一 个 1/0 内 存 上 的 窗口 ， 以 类 似 /dev/mem 的 方式 ， 你 可 以 读 和 写 数 据 ， 并 且 lseek 
到 一 个 任意 1/0 内 存 地 址 . 

















因为 silly 提供 了 对 ISA 内 存 的 存 取 ， 它 必须 开始 于 从 映射 物理 ISA 地 址 到 内 核 虚 拟 

地 址 . 在 Linux 内 核 的 早期 ， 一 个 人 可 以 简单 地 安排 一 个 指针 给 一 个 感 兴趣 的 ISA 地 址 ， 
接着 直接 对 它 解 引用 .在 现代 世界 ， 但 是 ， 我 们 必须 首先 使 用 虚拟 内 存 系统 和 重 映射 内 存 
范围 ， 这 个 映射 使 用 ioremap 完成 ， 如 同 前 面 为 short 解释 的 : 

















#define ISA BASE 0xA0000 
#define ISA MAX 0x100000 /* for general memory access */ 


/* this line appears in silly init */ 
io base - ioremap(ISA BASE, ISA MAX - ISA BASE); 





ioremap 返回 一 个 指针 值 ， 它 能 被 用 来 使 用 ioread8 和 其 他 函数 ， 在 “ 存 取 L/O 内 存 “ 一 
节 中 解释 . 








让 我 们 回顾 我 们 的 例子 模块 来 看 看 这 些 函 数 如 何 被 使 用 ，/dev/sil11lyb， 特 有 次 编号 0, 
存 取 1/0 内 存 使 用 ioread8 和 iowrite8. 下 列 代码 显示 了 读 的 实现 ， 它 使 地 址 范围 
0xA0000-0xFFFF 作为 一 个 虚拟 文件 在 范围 0-0x5FFF， 读 函数 构造 为 一 个 switch 语句 在 
不 同 存 取 模式 上 ; 这 是 sillyb 例子 : 








case M 8: 

while (count) { 
*ptr = ioread8 (add) ; 
add++; 
count--; 














ptr 


} 


break; 

















实际 上 ， 这 不 是 完全 正确 ， 内 存 范 围 是 很 小 和 很 频繁 的 使 用 ， 以 至 于 内 核 在 启动 时 建立 页 
表 来 存 取 这 些 地 址 ， 但 是 ， 这 个 用 来 存 取 它们 的 虚拟 地 址 不 是 同一 个 物理 地 址 ， 并 且 因 此 
无 论 如 何 需 要 ioremap. 
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下 2 个 设备 是 /dev/sillyw (次 编号 1) 和 /dev/sillyl (次 编号 2). 它们 表现 象 
/dev/sillyb， 除 了 它们 使 用 16- 位 和 32- 位 函数 .这 是 sillyl 的 写实 现 ， 又 一 次 部 


分 switch: 





case M 32: 

while (count >= 4) { 
iowrite8 Ck(u32 *)ptr, add); 
add += 4; 

count 一 





S 


ptr += 


} 


break: 





最 后 的 设备 是 /dev/sillycp (次 编号 3)， 它 使 用 memcpy *io 函数 来 进行 同样 的 任务 . 
这 是 它 的 读 实现 的 核心 : 


case M memcpy: 

memcpy fromio(ptr, add, count); 

break; 

因为 ioremap 用 来 提供 对 ISA 内 存 区 的 存 取 ，silly 必须 调用 iounmap PKR EDERT : 


iounmap(io base); 


9.4.6. isa readb 和 其 友 





看 一 下 内 核 源码 会 展现 男 一 套 函 数 ， 有 如 isareadb 的 名 子 . 实际 上 ， 每 个 刚才 描述 的 
函数 都 有 一 个 isa 对 等 体 ， 这 些 函 数 提供 对 ISA 内 存 的 存 取 不 需要 一 个 单独 的 
ioremap 步 又 但是， 来自 内 核 开 发 者 的 话 ， 是 这 些 函 数 打算 用 来 作为 暂时 的 驱动 移植 
助 ， 并 且 它 可 能 将 来 消失 ， 因此， 你 应 当 避 免 使 用 它们 . 


9.5. 快速 参考 


本 章 介绍 下 列 与 硬件 管理 相关 的 符号 : 











ARR 


f 


























Hinclude Xlinux/kernel. h> 
void barrier (void) 








这 个 “软件 “内存 屏蔽 要 求 编译 器 对 符 所 有 内 存 是 跨 这 个 指令 而 非 易 失 的 . 





#include <asm/system. h> 

void rmb (void); 

void read barrier depends (void) ; 
void wmb (void) ; 

void mb (void); 
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人 硬件 内 存 屏障 .它们 请 求 CPU (和 编译 器 ) 来 检查 所 有 的 跨 这 个 指令 的 内 存 读 ， 写 ， 
或 都 有 . 


#include <asm/io. h> 

unsigned inb (unsigned port); 

void outb (unsigned char byte, unsigned port); 
unsigned inw (unsigned port); 

void outw (unsigned short word, unsigned port); 
unsigned inl(unsigned port); 

void outl(unsigned doubleword, unsigned port); 


用 来 读 和 写 1/0 端口 的 函数 .它们 还 可 以 被 用 户 空间 程序 调用 ， 如 果 它们 有 正当 
的 权限 来 存 取 端口 . 





unsigned inb p(unsigned port); 








如 果 在 一 次 1/0 操作 后 需要 一 个 小 延 时 ， 你 可 以 使 用 在 前 一 项 中 介绍 的 这 些 函数 
的 6 个 暂停 对 应 部 分 ; 这 些 暂 停 函 数 有 以 p 结尾 的 名 子 . 


void insb(unsigned port, void *addr, unsigned long count); 
void outsb(unsigned port, void *addr, unsigned long count); 
void insw(unsigned port, void *addr, unsigned long count); 
void outsw(unsigned port, void *addr, unsigned long count); 
void insl(unsigned port, void *addr, unsigned long count); 
void outsl(unsigned port, void *addr, unsigned long count); 








这 些 “ 字 串 函数 “被 优化 为 传送 数据 从 一 个 输入 端口 到 一 个 内 存 区 ， 或 者 其 他 的 方式 . 
这 些 传 送 通过 读 或 写 到 同一 端口 count. 次 来 完成 . 

#include <linux/ioport. h> 

struct resource *request region (unsigned long start, unsigned long len, char *name); 


void release region(unsigned long start, unsigned long len); 
int check region(unsigned long start, unsigned long len); 


1/0 端口 的 资源 分 配器 .这 个 检查 函数 成 功 返 回 0 并 且 在 错误 时 小 于 0. 


struct resource *request mem region(unsigned long start, unsigned long len, char *name) ; 
void release mem region(unsigned long start, unsigned long len); 
int check mem region(unsigned long start, unsigned long len); 


为 内 存 区 处 理 资源 分 配 的 函数 





#include <asm/io. h> 

void *ioremap(unsigned long phys addr, unsigned long size); 

void *ioremap nocache(unsigned long phys addr, unsigned long size); 
void iounmap(void *virt addr); 





ioremap 重 映射 一 个 物理 地 址 范围 到 处 理 器 的 虚拟 地 址 空间 ， 使 它 对 内 核 可 用 . 
iounmap 释放 映射 当 不 再 需要 它 时 . 

















Hinclude <asm/io. h> 


218 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] [] [] O 0O IO [] O Linux[] D] E] LU [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
unsigned int ioread8 (void *addr); 
unsigned int ioreadl6(void *addr); 
unsigned int ioread32(void *addr); 
void iowrite8(u8 value, void *addr) ; 
void iowritel6(ul6 value, void *addr) ; 
void iowrite32(u32 value, void *addr); 





用 来 使 用 1/0 内 存 的 存 取 者 函数 . 


void ioread8 rep(void *addr, void *buf, unsigned long count); 
void ioreadl6 rep(void *addr, void *buf, unsigned long count); 
void ioread32 rep(void *addr, void *buf, unsigned long count); 
void iowrite8 rep(void *addr, const void *buf, unsigned long count); 
void iowritel6 rep(void *addr, const void *buf, unsigned long count); 
void iowrite32 rep(void *addr, const void *buf, unsigned long count); 





1/0 内 存 原 语 的 “重复 "版 本 . 


unsigned readb (address); 

unsigned readw (address) ; 

unsigned readl (address) ; 

void writeb (unsigned value, address) ; 
void writew(unsigned value, address); 
void writel(unsigned value, address); 
memset io(address, value, count); 
memcpy fromio(dest, source, nbytes); 
memcpy toio(dest, source, nbytes); 


日 的 ， 类 型 不 安全 的 存 取 1/0 内 存 的 函数 . 





void *ioport map(unsigned long port, unsigned int count); 
void ioport unmap(void *addr); 


一 个 想 对 待 1/0 端口 如 同 它们 是 1/0 内 存 的 驱动 作者 ， 可 以 传递 它们 的 端口 给 
ioport map. 这 个 映射 应 当 在 不 需要 的 时 候 恢 复 ( 使 用 ioport unmap ) 
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第 10 章 中 断 处 理 


尽管 一 些 设备 可 只 使 用 它们 的 1/0 区 来 控制 ， 大 部 分 真实 的 设备 比 那个 要 复杂 点 ， 设备 不 得 不 和 外 部 
上 世界 打交道 ， 常 常 包 括 诸如 旋转 的 磁盘 ， 移 动 的 磁带 ， 连 到 远 处 的 线 线 ， 等 等 ， 很 多 必须 在 一 个 时 间 方 
中 完成 ， 不 同 于 ， 并 且 远 慢 于 处 理 器 .因为 几乎 一 直 是 不 希望 使 处 理 器 等 待 外 部 事件 ， 对 于 设备 必须 有 
一 种 方法 使 处 理 器 知道 有 事情 发 生 了 . 






































































































































当然 ， 那 种 方法 是 中 断 ， 一 个 中 断 不 过 是 一 个 便 件 在 它 需 要 处 理 器 的 注意 时 能 够 发 出 的 信号 ,Linux 处 
理 中 断 非 常 类 似 它 处 理 用 户 空 间 信和 号 的 方式 ， 对 大 部 分 来 说 ， 一 个 驱动 上 只 需要 为 它 的 设备 中 断 注 册 一 个 
处 理 函 数 ， 并 且 当 它们 到 来 时 正确 处 理 它 们 ， 当然 ， 在 这 个 简单 图 像 之 下 有 一 些 复杂 ; 特别 地 ， 中 断 处 
理 有 些 受 限于 它们 能 够 进行 的 动作 ， 这 是 它们 如 何 运行 而 导致 的 结果 


























































































































没有 一 个 真实 的 硬件 设备 来 产生 中 断 ， 就 难 演 示 中 断 的 使 用 ， 因 此， 本 章 使 用 的 例子 代码 使 用 并 口 工 作 . 
这 些 端 口 在 现代 硬件 上 开始 变 得 稀少 ， 但 是 ， 运 气 地 ， 大 部 分 人 仍然 能 够 有 一 个 有 可 用 的 端口 的 系统 . 
我 们 将 使 用 来 自 上 一 章 的 简短 模块 ; 添加 一 小 部 分 它 能 够 产生 并 处 理 来 自 并 口 的 中 断 ， 模 块 的 名 子 ， 
short， 实 际 上 意味 着 short int ( 它 是 C， 对 不 ?)， 来 提醒 我 们 它 处 理 中 断 . 






















































































但 是 ， 在 我 们 进入 主题 之 前 ， 是 时 候 提 出 一 个 注意 事项 ， 中断 处 理 ， 由 于 它们 的 特性 ， 与 其 他 的 代码 并 
行 地 运行 ， 因 此， 它们 不 可 避免 地 引起 并 发 问题 和 对 数据 结构 和 硬件 的 竞争 ， 如果 你 屈服 于 诱惑 以 越过 
第 5 章 的 讨论 ， 我 们 理解 ， 但 是 我 们 也 建议 你 转 回去 并 且 现 在 看 一 下 ， 一 个 坚实 的 并 发 控制 技术 的 理 
解 是 重要 的 ， 在 使 用 中 断 时 . 


10. 1. 准备 并 口 


尽管 并 口 简单 ， 它 能 够 触发 中 断 ， 这 个 能 力 被 打印 机 用 来 通知 lp 驱动 它 准 备 好 接收 缓存 
中 的 下 一 个 字符. 






























































如 同 大 部 分 设备 ， 并 口 实际 上 不 产生 中 断 ， 在 它 被 指示 这 样 作 之 前 ; 并 口 标准 规定 设置 
port 2 (0x37a，0x27a， 或 者 任何 ) 的 bit 4 就 使 能 中 断 报 告 . short 在 模块 初始 化 时 进 
行 一 个 简单 的 outb 调用 来 设置 这 个 位 . 








一 旦 中 断 使 能 ， 任 何 时 候 在 管 脚 10 (所 请 的 ACK 位 ) 上 的 电信 号 从 低 变 到 高 ， 并 口 产生 
一 个 中 断 ， 最 简单 的 方法 来 强制 接口 产生 中 断 ( 没有 挂 一 个 打印 机 到 端口 ) 是 连接 并 口 连 
接 器 的 管 肢 9 和 管 脚 10， 一 根 短 线 ， 插 到 你 的 系统 后 面 的 并 口 连接 器 的 合适 的 孔 中 ， 
就 建立 这 个 连接 . 并 口外 面 的 管 脚 图 示 于 图 并 口 的 管 脚 . 












































管 脚 9 是 并 口 数据 字 节 的 最 高 位 ， 如 果 你 写 二 进 制 数据 到 /dev/short0， 你 产生 几 个 中 
断 ， 然而 ， 写 ASCH 文本 到 这 个 端口 不 会 产生 任何 中 断 ， 因 为 ASCI 字符 集 没 有 最 高 位 
置 位 的 项 . 














如 果 你 宁愿 避免 连接 管 脚 到 一 起 ， 而 你 手 上 确实 有 一 台 打 印 机 ， 你 可 用 使 用 一 个 真正 的 打 
印 机 来 运行 例子 中 断 处 理 ， 如 同 下 面 展示 的 ， 但是， 注意 我 们 介绍 的 探测 函数 依赖 管 脚 9 
MER 10 之 间 的 跳 线 在 位 置 上 ， 并 且 你 需要 它 使 用 你 的 代码 来 试验 探测 . 


10. 2， 安 装 一 个 中 断 处 理 
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如 果 你 想 实际 地 “看 到 “产生 的 中 断 ， 向 硬件 设备 写 不 足够 ; 一 个 软件 处 理 必须 在 系统 中 配 
E. WR Linux 内 核 还 没有 被 告知 来 期 竺 你 的 中 断 ， 它 简单 地 确认 并 忽略 它 . 




















中 断 线 是 一 个 宝贵 且 常 常 有 限 的 资源 ， 特 别 当 它 们 只 有 15 或 者 16 个 时 ， 内 核 保 持 了 中 
断 线 的 一 个 注册 ， 类 似 于 IZ0 端口 的 注册 .一 个 横 块 被 希望 来 请 求 一 个 中 断 通 道 (或 者 
IRQ， 对 于 中 断 请求 )， 在 使 用 它 之 前 ， 并 且 当 结束 时 释放 它 ， 在 很 多 情况 下 ， 也 希望 模块 
能 够 与 其 他 驱动 共享 中 断 线 ， 如 同 我 们 将 看 到 的 .下面 的 函数 ， 声 明 在 
《linux/interrfrupt.h>， 实 现 中 断 注 册 接 口 : 














int request irq(unsigned int irq, 
irgreturn t (handler) (int, void *, struct pt regs *), 
unsigned long flags, 


const char *dev name, 
void *dev id); 


void free irq(unsigned int irq, void *dev id); 





从 request irq 返回 给 请 求 函数 的 返回 值 或 者 是 0 指示 成 功 ， 或 者 是 一 个 负 的 错误 码 ， 
如 同 平和 党， 函数 返回 -EBUSY 来 指示 男 一 个 驱动 已 经 使 用 请 求 的 中 断 线 是 不 寻常 的 ， 函数 
的 参数 如 下 : 











unsigned int irq 
请 求 的 中 电 号 


irqreturn t (khandler) 





安装 的 处 理 函 数 指针 ， 我 们 在 本 章 后 面 讨论 给 这 个 函数 的 参数 以 及 它 的 返回 值 . 








unsigned long flags 





如 你 会 希望 的 ， 一 个 与 中 断 管理 相关 的 选项 的 位 掩 码 (后 面 描述 ). 








const char *dev name 


这 个 传递 给 request irq 的 字 串 用 在 /proc/interrupts 来 显示 中 断 的 拥有 者 (下 
一 节 看 到 ) 





void *dev id 


用 作 共 享 中 断 线 的 指针 ， 它 是 一 个 独特 的 标识 ， 用 在 当 释 放 中 上 断 线 时 以 及 可 能 还 被 
驱动 用 来 指向 它 自 己 的 私有 数据 区 (来 标识 哪个 设备 在 中 断 )， 如 果 中 断 没 有 被 共享 ， 
dev id 可 以 设置 为 NULL， 但 是 使 用 这 个 项 指向 设备 结构 不 管 如 何 是 个 好 主意 .我 
们 将 在 “实现 一 个 处 理 “一 节 中 看 到 dev id 的 一 个 实际 应 用 . 























flags 中 可 以 设置 的 位 如 下 : 


221 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] O O [] 0O IO [] O Linux[] HD] E] LU [1 L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
SA INTERRUPT 








当 置 位 了 ， 这 表示 一 个 “快速 “中 断 处 理 ， 快 速 处 理 在 当前 处 理 器 上 禁止 中 断 来 执行 
(这 个 主题 在 “快速 和 慢 速 处 理 “ 一 节 涉 及 ). 




















SA SHIRQ 





这 个 位 表示 中 断 可 以 在 设备 间 共 享 ， 共享 的 概念 在 ”中断 共享 一 节 中 上 略 述 . 


SA SAMPLE RANDOM 





这 个 位 表示 产生 的 中 断 能 够 有 贡献 给 /dev/random 和 /dev/urandom 使 用 的 加 密 
池 ， 这 些 设备 在 读 取 时 返回 真正 的 随机 数 并 且 设 计 来 帮助 应 用 程序 软件 为 加 密 选 择 
安全 钥 ， 这样 的 随机 数 从 一 个 由 各 种 随机 事件 贡献 的 加 密 池 中 提取 的 .如 果 你 的 设 
备 以 真正 随机 的 时 间 产 生 中 断 ， 你 应 当 设 置 这 个 标志 .如 果 ， 另 一 方面 ， 你 的 中 断 
是 可 预测 的 ( 例如 ， 一 个 帧 抓 取 器 的 场 消 隐 )， 这 个 标志 不 值得 设置 -- 它 无 论 如 
何不 会 对 系统 加 密 有 贡献 ， 可 能 被 攻击 者 影响 的 设备 不 应 当 设 置 这 个 标志 ; 例如 ， 
网 络 驱 动易 遭受 从 外 部 计时 的 可 预测 报 文 并 且 不 应 当 对 加 密 池 有 贡献 . 更 多 信息 看 


drivers/char/random.c 的 注释 . 























中 断 处 理 可 以 在 驱动 初始 化 时 安装 或 者 在 设备 第 一 次 打开 时 .尽管 从 模块 的 初始 化 函数 中 
安装 中 断 处 理 可 能 听 来 是 个 好 主意 ， 它 常常 不 是 ， 特 别 当 你 的 设备 不 共享 中 断 ， 因 为 中 断 
线 数目 是 有 限 的 ， 你 不 想 浪 费 它们 . 你 可 以 轻易 使 你 的 系统 中 设备 数 多 于 中 断 数 . 如 果 一 
个 模块 在 初始 化 时 请 求 一 个 IR8， 它 阻止 了 任何 其 他 的 驱动 使 用 这 个 中 断 ， 甚 至 这 个 持 有 
它 的 设备 从 不 被 使 用 ， 在 设备 打开 时 请 求 中 断 ， 另 一 方面 ， 允 许 茶 些 共享 资源 . 


























例如 ， 可 能 与 一 个 modem 在 同一 个 中 断 上 运行 一 个 帧 抓 取 器 ， 上 只 要 你 不 同时 使 用 这 2 个 
设备 ， 对 用 户 来 说 是 很 普通 的 在 系统 启动 时 为 一 个 特殊 设备 加 载 模块 ， 甚 全 这 个 设备 很 少 
用 到 ， 一 个 数据 获取 技巧 可 能 使 用 同一 个 中 断 作为 第 2 个 串口 .虽然 不 是 太 难 避免 在 数 
据 获 取 时 联 入 你 的 互联 网 服务 提供 商 (TSP)， 被 迫 秋 载 一 个 模块 为 了 使 用 modem 确实 令 人 
不 快 . 



































调用 request irq 的 正确 位 置 是 当 设备 第 一 次 打开 时 ， 在 硬件 被 指示 来 产生 中 断 前 ， 调 
用 free irq 的 位 置 是 设备 最 后 一 次 被 关闭 时 ， 在 硬件 被 告知 不 要 再 中 断 处 理 器 之 后 .这 
个 技术 的 缺点 是 你 需要 保持 一 个 每 设备 的 打开 计数 ， 以 便于 你 知道 什么 时 候 中 断 可 以 被 禁 
IÈ. 























尽管 这 个 讨论 ，short 还 在 加 载 时 请 求 它 的 中 断 线 . 这 样 做 是 为 了 你 可 以 运行 测试 程序 而 
不 必 运 行 一 个 额外 的 进程 来 保持 设备 打开 . short， 因 此 ， 从 它 的 初始 化 函数 
( short init ) 请 求 中 断 ， 不 是 在 short open 中 做 ， 象 一 个 真实 设备 驱动 . 








下 面 代 码 请 求 的 中 断 是 short irq. 变量 的 真正 赋值 ( 即 ， 决 定 使 用 哪个 IR ) 在 后 面 显 
示 ， 因 为 它 和 现在 的 讨论 无 关 ，short_base 是 使 用 的 并 口 1/0 基地 址 ; 接口 的 寄存 器 2 
被 写 入 来 使 能 中 断 报 告 . 














if (short irq >= 0) 
{ 
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result - request irq(short irq, short interrupt, 
SA INTERRUPT, "short^, NULL); 
if (result) { 
printk(KERN INFO ^short: can't get assigned irq %i\n”, 
short ir): 


short irq = -1; 
} else { /* actually enable it -- assume this *is* a parallel port */ 
outb(0x10, short base+2) ; 
j 
j 














代码 显示 ， 安 装 的 处 理 是 一 个 快速 处 理 (SA_INTERRUPT) ， 不 支持 中 断 共 享 (SA_SHIRQ 没 
有 )， 并 且 不 对 系统 加 密 有 贡献 (SA_SAMPLE RANDOM 也 没有 ). outb 调用 接着 为 并 口 使 能 
中 断 报告 . 











由 于 某 些 合理 原因 ，i386 和 x86 64 体系 定义 了 一 个 函数 来 询问 一 个 中 断 线 的 能 








int can request irq(unsigned int irq, unsigned long flags); 


这 个 函数 当 试 图 分 配 一 个 给 定 中 断 成 功 时 返回 一 个 非 零 值 . 但 是 ， 注 意 ， 在 
can request irq 和 request irq 的 调用 之 间 事 情 可 能 一 直 改 变 . 








10.2.1. /proc 接口 














无 论 何 时 一 个 硬件 中 断 到 达 处 理 器 ， 一 个 内 部 的 计数 器 递增 ， 提 供 了 一 个 方法 来 检查 设备 
是 否 如 希望 地 工作 .报告 的 中 断 显示 在 /proc/interrupts. 下 面 的 快照 取 自 一 个 双 处 理 
器 Pentium 系统 : 





root@montalcino:/bike/corbet/write/ldd3/src/short# m /proc/interrupts 


CPUO CPU1 
0: 4848108 34  IO-APIC-edge timer 
2 0 0 XT-PIC cascade 
8: 3 1]  IO-APIC-edge rtc 
10: 4335 1 IO-APIC-level aic7xxx 
11 8903 0 IO-APIC-level uhci_hcd 
12: 49 1]  IO-APIC-edge i8042 
MMI: 0 0 
LOC: 4848187 4848186 
ERR: 0 
MIS: 0 

















第 一 列 是 IRQ 号 ， 你 能 够 从 没有 的 IRQ 中 看 到 这 个 文件 只 显示 对 应 已 安装 处 理 的 中 断 . 
例如 ， 第 一 个 串口 (使 用 中 断 号 少 没 有 显示 ， 指 示 modem 没 在 使 用 .事实 上 ， 即 便 如 果 
modem 已 更 早 使 用 了 ， 但 是 在 这 个 快照 时 间 没 有 使 用 ， 它 不 会 显示 在 这 个 文件 中 ; 串口 表 
现 很 好 并 且 在 设备 关闭 时 释放 它们 的 中 断 处 理 . 
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/proc/interrupts 的 显示 展示 了 有 多 少 中 断 硬 件 递交 给 系统 中 的 每 个 CPU， 如 同 你 可 从 

输出 看 到 的 ，Linux 内 核 常 常 在 第 一 个 CPU 上 处 理 中 断 ， 作 为 一 个 使 cache 局 部 性 最 大 
化 的 方法 . 77 最 后 2 列 给 出 关于 处 理 中 断 的 可 编程 中 断 控制 器 的 信息 (驱动 编写 者 不 必 关 
心 )， 以 及 已 注册 的 中 断 处 理 的 设备 的 名 子 ( 如 同 在 给 request irq 的 参数 dev name 中 

指定 的 ). 
































/proc 树 包 含 另 一 个 中 断 有 关 的 文件 ，/proc/stat; 有 时 你 会 发 现 一 个 文件 更 加 有 用 并 且 
有 时 你 会 喜欢 另 一 个 ，/procVstat 记录 了 几 个 关于 系统 活动 的 低级 统计 量 ， 包 括 〈 但 是 不 
限于 ) 自 系 统 局 动 以 来 收 到 的 中 断 数 ，stat 的 每 一 行 以 一 个 文本 字 串 开始 ， 是 该 行 的 关键 
ij; intr 标志 是 我 们 在 找 的 .下列 GRET) 快照 是 在 前 一 个 后 马上 取得 的 : 





intr 5167833 5154006 2 0 2 4907 0 2 68 4 0 4406 9291 500 0 


第 一 个 数 是 所 有 中 断 的 总 数 ， 而 其 他 每 一 个 代表 一 个 单个 IRQ 线 ， 从 中 断 0 开始 .所 有 
的 计数 跨 系 统 中 所 有 处 理 器 而 汇总 的 ， 这 个 快照 显示 ， 中 断 号 4 已 使 用 4907 次 ， 尽 管 
当前 没有 安装 处 理 ， 如 果 你 在 测试 的 驱动 请 求 并 释放 中 断 在 每 个 打开 和 关闭 循环 ， 你 可 能 
发 现 /proc/stat 比 /proc/interrupts 更 加 有 用 . 
































2 个 文件 的 为 一 个 不 同 是 ， 中 断 不 是 体系 依赖 的 (也 许 ， 除 了 末尾 儿 行 )， 而 stat 是 ; 字 
段 数 依赖 内 核 之 下 的 硬件 ， 可 用 的 中 断 数目 少 到 在 SPARC 上 的 15 个 ， 多 到 IA-64 上 的 
256 个 ， 并 且 其 他 几 个 系统 都 不 同 ， 有 趣 的 是 要 注意 ， 定 义 在 x86 中 的 中 断 数 当前 是 224, 
不 是 你 可 能 期 望 的 16; 如 同 在 include/asm-1386/irq.h 中 解释 的 ， 这 依赖 Linux 使 用 
体系 的 限制 ， 而 不 是 一 个 特定 实现 的 限制 ( 例如 老式 PC 中 断 控 制 器 的 16 个 中 断 源 ) . 














下 面 是 一 个 /proc/interrupts 的 快照 ， 取 自 一 台 IA-64 系统 ， 如 你 所 见 ， 除 了 不 同人 硬 
件 的 通用 中 断 源 的 路 由 ， 输 出 非常 类 似 于 前 面 展示 的 32- 位 系统 的 输出 . 


CPUO CPU1 
21: 1705 34141 IO-SAPIC-level qlal280 
40: 0 0 SAPIC perfmon 
43: 913 6960 1O-SAPIC-level eth0 
4T: 26122 146 IO-SAPIC-level  usb-uhci 
64: 3 6 IO-SAPIC-edge ide0 
80: 4 2 IO-SAPIC-edge keyboard 
89: 0 0 IO-SAPIC-edge PS/2 Mouse 
239: 5606341 5606052 SAPIC timer 


254: 67575 52815 SAPIC IPI 
NMI: 0 0 
ERR: 0 


10. 2. 2， 自 动 检测 IR 号 
驱动 在 初始 化 时 最 有 挑战 性 的 问题 中 的 一 个 是 如 何 决定 设备 要 使 用 哪个 IRQ 线 ， 驱 动 需 


要 信息 来 正确 安装 处 理 ， 尽管 程序 员 可 用 请 求 用 户 在 加 载 时 指定 中 断 号 ， 这 是 个 坏 做 法 ， 
因为 大 部 分 时 间 用 户 不 知道 这 个 号 ， 要 么 因为 他 不 配置 跳 线 要 么 因为 设备 是 无 跳 线 的 .大 
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部 分 用 户 和 希望 他 们 的 硬件 “仅仅 工作 “并 且 不 感 兴趣 如 中 断 号 的 问题 ， 因此 自动 检测 中 断 号 
是 一 个 驱动 可 用 性 的 基本 需求 . 





有 时 自动 探测 依赖 知道 一 些 设备 有 很 少 改变 的 缺 省 动作 的 特性 .在 这 个 情况 下 ， 驱 动 可 能 
假设 缺 省 值 适 用 .这 确切 地 就 是 short 如 何 缺 省 对 并 口 动作 的 ， 实 现 是 直接 的 ， 如 
short 自身 显示 的 : 














if (short irq < 0) /* not yet specified: force the default on */ 
switch(short base) { 

case 0x378: short irq - 7; break; 

case 0x278: short irq = 2; break; 

case Ox3bc: short irq - 5; break; 


} 





代码 根据 选择 的 I/0 基地 址 赋值 中 断 号 ， 而 允许 用 户 在 加 载 时 履 盖 缺 省 值 ， 使 用 如 : 


insmod . /Short. ko irq-x 
short base defaults to 0x378, so short irq defaults to T. 











有 些 设备 设计 得 更 高 级 并 且 简 单 地 “宣布 “它们 要 使 用 的 中 断 ， 在 这 个 情况 下 ， 张 动 获取 中 
断 号 通过 从 设备 的 一 个 1/0 端口 或 者 PCI 配置 空间 读 一 个 状态 字 节 .， 当 目标 设备 是 一 个 
有 能 力 告知 驱动 它 要 使 用 哪个 中 断 的 设备 时 ， 上 自动 探测 中 断 号 只 是 意味 着 探测 设备 ， 探 测 
中 断 没 有 其 他 工作 要 做 ， 幸 和 运 的 是 大 部 分 现代 硬件 这 样 工作 ; 例如 ，PCI 标准 解决 了 这 个 
问题 通过 要 求 外 设 来 声明 它们 要 使 用 哪个 中 断 线 ，PCI 标准 在 12 章 讨 论 . 





















































不 笠 的 是 ， 不 是 每 个 设备 是 对 程序 员 友 好 的 ， 并 且 自 动 探 测 可 能 需要 一 些 探测 ， 这 个 技术 
非常 简单 : 驱动 告知 设备 产生 中 断 并 且 观 察 发 生 了 什么 ， 如 果 所 有 事情 进展 地 好 ， 只 
个 中 断 线 被 激活 . 








尽管 探测 在 理论 上 简单 的 ， 实 际 的 实现 可 能 不 清晰 ， 我 们 看 2 种 方法 来 进行 这 个 任务 : 
调用 内 核定 义 的 帮助 函数 和 实现 我 们 自己 的 版 本 


10.2.2.1. 内 核 协助 的 探测 














Linux 内 核 提供 了 一 个 低级 设施 来 探测 中 断 号 . 它 只 为 非 共 享 中 断 ， 但 是 大 部 分 能 够 在 共 
享 中 断 状 态 工 作 的 硬件 提供 了 更 好 的 方法 来 尽量 发 现 配置 的 中 断 号 . 这 个 设施 包括 2 个 函 
数 ， 在 《linux/interrupt.h> 中 声明 ( 也 描述 了 探测 机 制 ). 
































unsigned long probe irq on(void); 


这 个 函数 返回 一 个 未 安排 的 中 断 的 位 掩 码 ， 驱动 必须 保留 返回 的 位 掩 码 ， 并 且 在 后 
面 传递 给 probe irq off. 在 这 个 调用 之 后 ， 驱 动 应 当 安 排 它 的 设备 产生 至 少 一 次 
HWT. 





int probe irq off (unsigned long); 
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在 设备 已 请 求 一 个 中 断后 ， 驱 动 调用 这 个 函数 ， 作 为 参数 传递 之 前 由 
probe irq on 返回 的 位 捧 码 ， probe irq off 返回 在 “probe_on 之 后 发 出 的 中 断 
号 ， 如 果 没 有 中 断 发 生 ， 返 回 0 (因此 ，IRQ 0 不 能 探测 ， 但 是 没有 用 户 设 备 能 够 
在 任何 文 持 的 体系 上 使 用 它 )， 如 果 多 于 一 个 中 断 发 生 ( 模糊 的 探测 )， 
probe irq off 返回 一 个 负 值 . 








程序 员 应 当 小 心 使 能 设备 上 的 中 断 ， 在 调用 probe irq on 之 后 以 及 在 调用 
probe irq off 后 禁止 它们 ， 另 外 ， 你 必须 记 住 服务 你 的 设备 中 挂 起 的 中 断 ， 在 
probe irq off 之 后 . 











short 模块 演示 了 如 何 使 用 这 样 的 探测 .如 果 你 加 载 模块 使 用 probe=1， 下 列 代码 被 执行 
来 控 测 你 的 中 断 线 ， 如 果 并 口 连接 器 的 管 脚 9 和 10 连接 在 一 起 : 





int count = 0; 

do 

{ 
unsigned long mask; 
mask = probe irq on(); 
outb_p (0x10, short_base+2); /* enable reporting */ 
outb_p (0x00, short_base); /* clear the bit */ 
outb_p(0xFF, short_base); /* set the bit: interrupt! */ 
outb p(0x00, short base*2); /* disable reporting */ 
udelay(5); /* give it some time */ 
short irq = probe irq off (mask); 


if (short irq == 0) { /* none of them? */ 
printk(KERN INFO ^short: no irq reported by probeWn^); 
short irq = -1; 


j 


/* 
* if more than one line has been activated, the result is 
* negative. We should service the interrupt (no need for lpt port) 
* and loop over again. Loop at most five times, then give up 
*/ 
) while (short irq < 0 && count++《 5); 
if (short irq < 0) 
printk(/short: probe failed %i times, giving up\n”, count); 





注意 udelay 的 使 用 ， 在 调用 probe irq off 之 前 . 依赖 你 的 处 理 器 的 速度 ， 你 可 能 不 
得 不 等 待 一 小 段 时 间 来 给 中 断 时 间 来 真正 被 递交 . 








探测 可 能 是 一 个 长 时 间 的 任务 .虽然 对 于 short 这 不 是 真 的 ， 例 如 ， 探 测 一 个 帧 抓 取 器 ， 
需要 一 个 至 少 20 ms 的 延 时 ( 对 处 理 器 是 一 个 时 代 )， 并 且 其 他 的 设备 可 能 要 更 长 ， 因 
此 ， 最 好 只 探测 中 断 线 一 次 ， 在 模块 初始 化 时 ， 独 立 于 你 是 否 在 设备 打开 时 安装 处 理 (如 
同 你 应 当做 的 )， 或 者 在 初始 化 函数 当中 (这 个 不 推荐 ). 
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有 趣 的 是 注意 在 一 些 平 台 上 (PoweerPC, M68K, X384) MIPS 实现 ， 以 及 2 个 SPARC 版 
本 ) 探测 是 不 必要 的 ， 并 且 ， 因 此 ， 之 前 的 函数 只 是 空 的 占 位 者 ， 有 时 称 为 “无 用 的 ISA 
废话 “. 在 其 他 平台 上 ， 探 测 只 为 ISA 设备 实现 .无 论 如 何 ， 大 部 分 体系 定义 了 函数 ( HU 
便 它们 是 空 的 ) 来 简化 移植 现存 的 设备 驱动 . 
































10.2.2.2. Do-it-yourself 探测 





探测 也 可 以 在 驱动 自身 实现 没有 太 大 麻烦 . 它 是 一 个 少 有 的 驱动 必须 实现 它 自 己 的 探测 ， 
但 是 看 它 是 如 何 工 作 的 能 够 给 出 对 这 个 过 程 的 内 部 认识 .为 此 目的 ，short 模块 进行 do- 
it-yourself 的 IRQ 线 探测 ， 如 果 它 使 用 probe-2 加 载 . 




















这 个 机 制 与 前 面 描述 的 相同 : 使 能 所 有 未 使 用 的 中 断 ， 接 着 等 得 并 观察 发 生 什么 ， 我 们 能 
够 ， 然 而 ， 利 用 我 们 对 设备 的 知识 .常常 地 一 个 设备 能 够 配置 为 使 用 一 个 IRQ 号 从 3 个 
或 者 4 个 一 套 ; 只 探测 这 些 IRQ 使 我 们 能 够 探测 正确 的 一 个 ， 不 必 测 试 所 有 的 可 能 中 断 . 




















short 实现 假定 3，5，7， 和 9 是 唯一 可 能 的 IRQ 值 . 这 些 数 实 际 上 是 一 些 并 口 设备 多 
许 你 选择 的 数 . 


下 面 的 代码 通过 测试 所 有 “可 能 的 “中 断 并 且 查 看 发 生 的 事情 来 探测 中 断 ，trials 数组 列 
出 要 尝试 的 中 断 ， 以 0 作为 结尾 标志 ; tried 数组 用 来 跟踪 哪个 处 理 实际 上 被 这 个 驱动 
注册 . 














int trials[] = 
{ 
3, 5, 7, 9, 0 
ri 
int tried[] 


{0, 0, 0, 0, 0}; 
int i, count ; 


0; 


/* 
* install the probing handler for all possible lines. Remember 
* the result (0 for success, or -EBUSY) in order to only free 
* what has been acquired */ 
for (i = 0; trials[i]; i++) 
triedli] = request irq(trials[i], short probing, 
SA INTERRUPT, “short probe”, NULL); 


short irq = 0; /* none got, yet */ 

outb p(0x10,short base*2); /* enable */ 

outb p(0x00, short base); 

outb p(0xFF, short base); /* toggle the bit */ 
outb p(0x00, short base*2); /* disable */ 
udelay(5); /* give it some time */ 


/* the value has been set by the handler */ 
if (short irq == 0) ( /* none of them? */ 


printk(KERN INFO ^short: no irq reported by probeW^); 
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} 
/* 
* [f more than one line has been activated, the result is 
* negative. We should service the interrupt (but the lpt port 
* doesn t need it) and loop over again. Do it at most 5 times 
*/ 

} while (short irq «70 && count < 5); 


/* end of loop, uninstall the handler */ 
for (i = 0; trials[i]; i++) 
if (tried[i] == 0) 
free irq(trials[i], NULL); 


if (short irq < 0) 
printk('short: probe failed *i times, giving upWMY , count); 











你 可 能 事先 不 知道 “可 能 的 ”IRQ 值 是 什么 .在 这 个 情况 ， 你 需要 探测 所 有 空闲 的 中 断 ， 
不 是 限制 你 自己 在 几 个 trials[]. 为 探测 所 有 的 中 断 ， 你 不 得 不 从 IR 0 到 IRQ 
NR IRQS-1 探测 ， 这 里 NR IRQS 在 “asmirq.h> 中 定义 并 且 是 独立 于 平台 的 . 

















现在 我 们 只 缺少 探测 处 理 自己 了 .， 处理 者 的 角色 是 更 新 short_irq， 根 据 实际 收 到 哪个 中 
W. short irq 中 的 0 值 意味 着 ”什么 没有 ”“， 而 一 个 负 值 意味 着 “模糊 的 “， 这 些 值 选 择 
来 和 probe irq off 相 一 臻 并且 人 允许 同样 的 代码 来 调用 任 一 种 short.c 中 的 探测 . 





irqreturn t short probing(int irq, void *dev id, struct pt regs *regs) 


{ 


if (short irq == 0) short irq = irq; /* found */ 
if (short_irq != irq) short irq = -irq; /* ambiguous */ 
return IRQ HANDLED; 
} 

















处 理 的 参数 在 后 面 描述 ， 知 道 irq 是 在 处 理 的 中 断 应 当 是 足够 的 来 理解 刚刚 展示 的 函数 . 
10. 2. 3， 人 快速 和 慢 速 处 理 
老 版 本 的 Linux 内 核 尽 了 很 大 努力 来 区 分 “快速 和? 慢 速 “中 断 ， 快 速 中 断 是 那些 能 够 很 


快 处 理 的 ， 而 处 理 慢 速 中 断 要 特别 地 长 一 些 ， 慢 速 中 断 可 能 十 分 苛求 处 理 器 ， 并 且 它 值得 
在 处 理 的 时 候 重新 使 能 中 断 ， 否 则 ， 需 要 快速 注意 的 任务 可 能 被 延 时 太 长 . 






































在 现代 内 核 中 ， 快 速 和 慢 速 中 断 的 大 部 分 不 同 已 经 消失 .， 剩 下 的 仅仅 是 一 个 : 快速 中 断 
(那些 使 用 SA_INTERRUPT 被 请 求 的 ) 执行 时 禁止 所 有 在 当前 处 理 器 上 的 其 他 中 断 ， 注 意 其 
他 的 处 理 器 仍然 能 够 处 理 中 断 ， 尽 管 你 从 不 会 看 到 2 个 处 理 器 同时 处 理 同 一 个 IRQ. 






































这 样 ， 你 的 驱动 应 当 使 用 哪个 类 型 的 中 断 ? 在 现代 系统 上 ，SA_INTERRUPT 只 是 打算 用 在 
几 个 ， 特 殊 的 情况 例如 时 钟 中 断 ， 除 非 你 有 一 个 充足 的 理由 来 运行 你 的 中 断 处 理 在 禁 目 其 
他 中 断 情 况 下 ， 你 不 应 当 使 用 SA_INTERRUPT. 




















这 个 描述 应 当 满 足 大 部 分 读者 ， 尽 管 有 人 喜好 硬件 并 且 对 她 的 计算 机 有 经 验 可 能 有 兴趣 深 
入 一 些 ， 如 果 你 不 关心 内 部 的 细节 ， 你 可 跳 到 下 一 节 . 
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10.2.3.1. x86 上 中 断 处 理 的 内 幕 


这 个 描述 是 从 arch/i386/kernel/irq.c, arch/i386/kernel/ apic.c, 
arch/i386/kernel/entry.S, arch/i386/kernel/i8259.c, JI include/asm- 

1386/hw irq.h 它们 出 现 于 2.6 内 核 而 推 知 的 ; 尽管 一 般 的 概念 保持 一 致 ， 便 件 细节 在 
其 他 平台 上 不 同 . 























中 断 处 理 的 最 低级 是 在 entry. S， 一 个 汇编 语言 文件 处 理 很 多 机 器 级 别 的 工作 ， 通 过 一 点 
汇编 器 的 技巧 和 一 些 宏 定义 ， 一 点 代码 被 安排 到 每 个 可 能 的 中 断 ， 在 每 个 情况 下 ， 这 个 代 
码 将 中 断 号 压 栈 并 且 跳 转 到 一 个 通用 段 ， 称 为 do_IRQ， 在 irq.c 中 定义 . 




















do IRQ 做 的 第 一 件 事 是 确认 中 断 以 便 中 断 控制 器 能 够 继续 其 他 事情 .， 它 接着 获取 给 定 
IR 号 的 一 个 自 旋 锁 ， 因 此 阻止 任何 其 他 CPU 处 理 这 个 IRQ， 它 清除 几 个 状态 位 (包括 称 
为 IRQ WAITING 的 一 个 ， 我 们 很 快 会 看 到 它 ) 并 且 接 着 查看 这 个 特殊 IRQ 的 处 理 者 ， 如 

果 没 有 处 理 者 ， 什 么 不 作 ; 上 自 旋 锁 释放 ， 任 何 挂 起 的 软件 中 断 被 处 理 ， 最 后 do IRQ 返回 . 






































和 常常， 但 是 ， 如 果 一 个 设备 在 中 断 ， 至 少 也 有 一 个 处 理 者 注册 给 它 的 IRQ， 函 数 
handle IRQ event 被 调用 来 实际 调用 处 理 者 .如 果 处 理 者 是 慢 速 的 ( SA INTERRUPT 没有 
设置 )， 中 断 在 便 件 中 被 重新 使 能 ， 并 且 调 用 处 理 者 .接着 仅仅 是 清理 ， 运 行 软件 中 断 ， 
以 及 回 到 正常 的 工作 . “常规 工作 “很 可 能 已 经 由 于 中 断 而 改变 了 (处理 者 可 能 唤醒 一 个 进 
程 ， 例 如 )， 因 此 从 中 断 中 返回 的 最 后 的 事情 是 一 个 处 理 器 的 可 能 的 重新 调度 . 



























































探测 IRQ 通过 设置 IRQ WAITING 状态 位 给 每 个 当前 缺乏 处 理 者 的 IRQ 来 完成 ， 当 中 晰 
RÆ, do IR 清除 这 个 位 并 且 接 着 返回 ， 因 为 没有 注册 处 理 者 . probe_irq_off， 当 被 一 
个 函数 调用 ， 需 要 只 搜索 不 再 有 IRQ WAITING 设置 的 IRQ. 




















10. 2. 4， 实 现 一 个 处 理 


至 今 ， 我 们 已 学 习 了 注册 一 个 中 断 处 理 ， 但 是 没有 编写 一 个 ， 实 际 上 ， 对 于 一 个 处 理 者 ， 
没什么 不 寻常 的 — 它 是 普通 的 C 代码 . 




















唯一 的 特别 之 处 是 一 个 处 理 者 在 中 断 时 运行 ， 因 此 ， 它 能 做 的 事情 遭受 一 些 限 制 ， 这 些 限 
制 与 我 们 在 内 核定 时 器 上 看 到 的 相同 ， 一 个 处 理 者 不 能 传递 数据 到 或 者 从 用 户 空间 ， 因 为 
它 不 在 进程 上 下 文 执行 ， 处 理 者 也 不 能 做 任何 可 能 睡眠 的 事情 ， 例 如 调用 wait event, 
使 用 除 GFP_ATOMIC 之 外 任何 东西 来 分 配 内 存 ， 或 者 加 锁 一 个 旗 标 最后， 处 理 者 不 能 调 
用 调度 . 
























































一 个 中 断 处 理 的 角色 是 给 它 的 设备 关于 中 断 接 收 的 回应 并 且 读 或 写 数据 ， 根 据 被 服务 的 中 
断 的 含义 ， 第 一 步 常 常 包括 清除 接口 板 上 的 一 位 ;大 部 分 硬件 设备 不 产生 别 的 中 断 直 到 它 
们 的 ”中断 挂 起 “位 被 清除 ， 根 据 你 的 硬件 如 何 工作 的 ， 这 一 步 可 能 需要 在 最 后 做 而 不 是 开 
始 ; 这 里 没有 通 吃 的 规则 ， 一 些 设备 不 需要 这 步 ， 因 为 它们 没有 一 个 "中断 挂 起 ”位 ; 这 样 
的 设备 是 一 少数 ， 尽 管 并 口 是 其 中 之 一 ， 由 于 这 个 理由 ，short 不 必 清 除 这 样 一 个 位 . 
























































一 个 中 断 处 理 的 典型 任务 是 唤醒 睡眠 在 设备 上 的 进程 ， 如 果 中 断 指示 它们 在 等 待 的 事件 ， 
例如 新 数据 的 到 达 . 
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为 坚持 帧 抓 取 者 的 例子 ， 一 个 进程 可 能 请 求 一 个 图 像 序列 通过 连续 读 设 备 ; 读 调用 阻塞 在 
读 取 每 个 帧 之 前 ， 而 中 断 处 理 唤醒 进程 一 旦 每 个 新 帧 到 达 .， 这 个 假定 抓 取 器 中 断 处 理 器 来 
指示 每 个 新 帧 的 成 功 到 达 . 
































程序 员 应 当 小 心 编写 一 个 函数 在 最 小 量 的 时 间 内 执行 ， 不 管 是 一 个 快速 或 慢 速 处 理 者 ， 如 
果 需 要 进行 长 时 间 计 算 ， 最 好 的 方法 是 使 用 一 个 tasklet 或 者 workqueue 来 调度 计算 在 
一 个 更 安全 的 时 间 (我 们 将 在 "上 和 下 半 部 “一 节 中 见 到 工作 如 何 被 延迟 . ). 























我 们 在 short 中 的 例子 代码 响应 中 断 通 过 调用 do gettimeofday 和 打印 当前 时 间 到 一 
个 页 大 小 的 环形 缓存 ， 它 接着 唤醒 任何 读 进程 ， 因 为 现在 有 数据 可 用 来 读 取 . 


irqreturn t short interrupt(int irq, void *dev id, struct pt regs *regs) 

{ 
struct timeval tv; 
int written; 
do gettimeofday (&tv) ; 
/* Write a 16 byte record. Assume PAGE SIZE is a multiple of 16 */ 
written = sprintf((char *)short head, ^*08u. $06uWn^, 

(int) (tv. tv sec % 100000000), (int) (tv. tv usec)) ; 

BUG ON(written != 16); 
short incr bp(&short head, written); 
wake up interruptible(&short queue); /* awake any reading process */ 
return IRQ HANDLED; 

} 


这 个 代码 ， 尽 管 简单 ， 代 表 了 一 个 中 断 处 理 的 典型 工作 ， 依 次 地 ， 它 称 为 short incr bp, 
定义 如 下 : 











static inline void short incr bp(volatile unsigned long *index, int delta) 
{ 

unsigned long new = *index + delta; 

barrier(); /* Don't optimize these two together */ 

*index = (new >= (short buffer + PAGE SIZE)) ? short buffer : new; 
} 




















这 个 函数 已 经 仔细 编写 来 回 卷 指 向 环形 缓存 的 指针 ， 没 有 暴露 一 个 不 正确 的 值 . 这 里 的 
barrier 调用 来 阻止 编译 器 在 这 个 函数 的 其 他 2 行 之 间 优 化 .如 果 没 有 barrier， 编 译 
器 可 能 决定 优化 掉 new 变量 并 且 直 接 赋 值 给 *index. 这 个 优化 可 能 暴露 一 个 index 的 
不 正确 值 一 段 时 间 ， 在 它 回 卷 的 地 方 . 通过 小 心 阻 止 对 其 他 线程 可 见 的 不 一 致 的 值 ， 我 们 
能 够 安全 操作 环形 缓存 指针 而 不 用 锁 ，, 














用 来 读 取 中 断 时 填充 的 缓存 的 设备 文件 是 /dev/shortint. 这 个 设备 特殊 文件 ， 同 
/dev/shortprint 一 起 ， 不 在 第 9 章 介 绍 ， 因 为 它 的 使 用 对 中 断 处 理 是 特殊 的 . 
/dev/shortint 内 部 特别 地 为 中 断 产 生 和 报告 剪裁 过 ， 写 到 设备 会 每 隔 一 个 字 节 产生 一 个 
中 断 ; 读 取 设备 给 出 了 每 个 中 断 被 报告 的 时 间 . 


























如 果 你 连接 并 口 连接 器 的 管 脚 9 和 10， 你 可 产生 中 断 通过 拉 高 并 口 数据 字 节 的 高 位 ， 这 
可 通过 写 二 进 制 数据 到 /dev/shortO 或 者 通过 写 任何 东西 到 /dev/shortint 来 完成 . 











加 下 列 代码 为 /dev/shortint 实现 读 和 写 : 
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ssize t short i read (struct file *filp, char _ user *buf, size t count 
loff t *f pos) 
{ 
int count0; 
DEFINE WAIT (wait); 


while (short head -- short tail) 
{ 
prepare to wait(&short queue, &wait, TASK INTERRUPTIBLE); 
if (short head == short tail) 
schedule () ; 
finish wait(&short queue, &wait); 
if (signal pending (current)) /* a signal arrived */ 
return -ERESTARTSYS; /* tell the fs layer to handle it */ 
} /* count0 is the number of readable data bytes */ count0 = short head - 
short tail; 
if (count0 < 0) /* wrapped */ 
count0 = short buffer + PAGE SIZE - short tail; 
if (count0 € count) 
count = count0; 


if (copy to user(buf, (char *)short tail, count)) 
return -EFAULT; 

short incr bp (&short tail, count); 

return count; 


} 


ssize t short i write (struct file *filp, const char user *buf, size t count, loff t *f pos) 


{ 
int written = 0, odd = *f pos & 1; 
unsigned long port = short base; /* output to the parallel data latch */ 
void *address = (void *) short base; 


if (use mem) 


{ 
while (written < count) 
iowrite8(Oxff * ((++written + odd) & 1), address); 
} 
else 
{ 
while (written < count) 
outb(Oxff * ((++written + odd) & 1), port); 
} 


*f pos += count; 
return written; 














其 他 设备 特殊 文件 ，/dev/shortprint， 使 用 并 口 来 驱动 一 个 打印 机 ; 你 可 用 使 用 它 ， 如 
果 你 想 避 人 免 连 接 一 个 D-25 连接 器 管 脚 9 和 10. shortprint 的 写实 现 使 用 一 个 环形 组 
存 来 存储 要 打印 的 数据 ， 而 写实 现 是 刚刚 展示 的 那个 (因此 你 能 够 读 取 你 的 打印 机 吃 进 每 
个 字符 用 的 时 间 ). 
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字 节 到 打印 机 的 能 力 ， 如 果 没 有 更 多 数据 传送 . 


10. 2. 5， 处 理 者 的 参数 和 返回 值 


尽管 short 忽略 了 它们 ， 一 个 传递 给 一 个 中 断 处 理 的 参数 : irq，dev_id， 和 regs. 我 
们 看 一 下 每 个 的 角色 . 

















中 断 号 ( int ira ) 作 为 你 可 能 在 你 的 log 消息 中 打印 的 信息 是 有 用 的 ， 如 果 有 .， 第 二 个 
参数 ，void *dev id， 是 一 类 客户 数据 ; 一 个 voidx 参数 传递 给 request_irq， 并 且 同 
样 的 指针 接着 作为 一 个 参数 传 回 给 处 理 者 ， 当 中 断 发 生 时 你 常常 传递 一 个 指向 你 的 在 

dev id 中 的 设备 数据 结构 的 指针 ， 因 此 一 个 管理 相同 设备 的 几 个 实例 的 驱动 不 需要 任何 
额外 的 代码 ， 在 中 断 处 理 中 找 出 哪个 设备 要 负责 当前 的 中 断 事 件 . 
























































这 个 参数 在 中 断 处 理 中 的 典型 使 用 如 下 : 





static irqreturn t sample interrupt(int irq, void *dev id, struct pt regs *regs) 
{ 


struct sample dev *dev = dev_id; 


/* now dev’ points to the right hardware item */ 
P2. */ 
) 





和 这 个 处 理 者 关联 的 典型 的 打开 代码 看 来 如 此 : 


static void sample open(struct inode *inode, struct file *filp) 


{ 
struct sample dev *dev = hwinfo + MINOR (inode->i rdev); 
request irq(dev-^irq, sample interrupt, 


0 /* flags */, "sample", dev /* dev id */); 
fk... xf 


return 0; 


} 





最 后 一 个 参数 ，struct pt regs *regs， 很 少 用 到 .， 它 持 有 一 个 处 理 器 的 上 下 文 在 进入 中 
断 状 态 前 的 快照 .寄存 器 可 用 来 监视 和 调试 ; 对 于 常规 地 设备 驱动 任务 ， 正 常 地 不 需要 它 
1j]. 





























中 断 处 理应 当 返 回 一 个 值 指示 是 否 真正 有 一 个 中 断 要 处 理 ， 如 果 处 理 者 发 现 它 的 设备 确实 
需要 注意 ， 它 应 当 返 回 IRQ HANDLED; 否则 返回 值 应 当 是 IRQ_NONE， 你 也 可 产生 返回 值 ， 
使 用 这 个 宏 : 














IRQ RETVAL (handled) 


XE, handled 是 非 零 ， 如 果 你 能 够 处 理 中 断 ， 内 核 用 返回 值 来 检测 和 抑制 假 中 断 ， 如 果 
你 的 设备 没有 给 你 方法 来 告知 是 否 它 确 实 中 断 ， 你 应 当 返 回 IRA HANDLED. 
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10. 2. 6， 使 能 和 禁止 中 断 


有 时 设备 驱动 必须 阻塞 中 断 的 递交 一 段 时 间 (希望 地 短 ) (我 们 在 第 5 间 的 “ 目 旋 锁 一 市 
看 到 过 这 样 的 一 个 情况 )， 常 常 ， 中 断 必须 被 阻塞 当 持 有 一 个 自 旋 锁 来 避免 死 锁 系统 时 . 
有 几 个 方法 来 禁止 不 涉及 上 自 旋 锁 的 中 断 ， 但 是 在 我 们 讨论 它们 之 前 ， 注 意 禁止 中 断 应 当 是 
一 个 相对 少见 的 行为 ， 即 便 在 设备 碟 动 中 ， 并 且 这 个 技术 应 当 从 不 在 驱动 中 用 做 互 斥 机 制 


10.2.6.1. 禁止 单个 中 断 









































有 了 时 (但 是 很 少 !) 一 个 驱动 需要 禁止 一 个 特定 中 断 线 的 中 断 递交 ， 内 核 提供 了 3 个 函数 为 
此 目的 ， 所 有 都 声明 在 CKasm/irq.ho. 这些 函数 是 内 核 API 的 一 部 分 ， 因 此 我 们 描述 它 
们 ， 但 是 它们 的 使 用 在 大 部 分 驱动 中 不 鼓励 . 在 其 他 的 中 ， 你 不 能 禁止 共享 的 中 断 线 ， 并 
且 ， 在 现代 的 系统 中 ， 共 享 的 中 断 是 规范 ， 已 说 过 的 ， 它 们 在 这 里 : 

















void disable irq(int irq); 
void disable irq nosync(int irq); 
void enable irq(int irg); 














调用 任 一 函数 可 能 更 新 在 可 编程 控制 器 (PIC) 中 的 特定 ira 的 掩 码 ， 因 此 禁止 或 使 能 跨 所 
有 处 理 器 的 特定 IRQ， 对 这 些 函 数 的 调用 能 够 垦 套 一 如 果 disable irq 被 连续 调用 2 
次 ， 需 要 2 个 enable irq 调用 在 IR 被 真正 重新 使 能 前 ， 可 能 调用 这 些 函 数 从 一 个 中 
断 处 理 中 ， 但 是 在 处 理 它 时 使 能 你 自己 的 IRQ 常常 不 是 一 个 好 做 法 . 






































disable irq 不 仅 禁 止 给 定 的 中 断 ， 还 等 待 一 个 当前 执行 的 中 断 处 理 结束 ， 如 果 有 .要 知 
道 如 果 调 用 disable irq 的 线程 持 有 中 断 处 理 需要 的 任何 资源 (例如 自 旋 锁 )， 系 统 可 能 
4684. disable irq nosync 与 disable irq 不 同 ， 它 立刻 返回 . 因此 ， 使 用 
disable_irq_nosync 快 一 点 ， 但 是 可 能 使 你 的 设备 有 竞争 情况 . 


























但 是 为 什么 禁止 中 断 ?” 坚持 说 并 口 ， 我 们 看 一 下 plip 网 络 接口 .一 个 plip 设备 使 用 裸 
并 口 来 传送 数据 ， 因 为 具有 5 位 可 以 从 并 口 连 接 器 读 出 ， 它 们 被 解释 为 4 个 数据 位 和 一 
个 时 钟 /握手 信号 ， 当 一 个 报 文 的 第 一 个 4 位 被 initiator (发 送 报 文 的 接口 ) 传送 ， 时 
钟 线 被 拉 高 ， 使 接收 接口 来 中 断 处 理 器 ，plip 处 理 者 接着 被 调用 来 处 理 新 到 达 的 数据 . 
































在 设备 已 经 被 提醒 了 后 ， 数 据 传送 继续 ， 使 用 握手 线 来 传送 数据 到 接收 接口 (这 可 能 不 是 
最 好 的 实现 ， 但 是 有 必要 与 使 用 并 口 的 其 他 报 文 驱动 兼容 ).， 如 果 接 收 接口 不 得 不 为 每 个 
接收 的 字 贡 处 理 2 次 中 断 ， 性 能 可 能 不 可 和 忍受. 因此， 驱动 在 接收 报 文 的 时 候 禁 止 中 断 ; 
相反 ， 一 个 查询 并 延 时 的 循环 用 来 引入 数据 . 























类 似 地 ， 因 为 从 接收 器 到 发 送 器 的 握手 线 用 来 确认 数据 接收 ， 发 送 接口 禁止 它 的 IRQ 线 
在 报 文 发 送 时 . 


10.2.6.2. 禁止 所 有 中 断 

















如 果 你 需要 禁止 所 有 中 断 如 何 ? 在 2.6 内 核 ， 可 能 关闭 在 当前 处 理 器 上 所 有 中 断 处 理 ， 
使 用 任 一 个 下 面 2 个 函数 (定义 在 《asm/system. h>) : 
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void local irq save(unsigned long flags); 
void local irq disable (void); 





一 个 对 local irq save 的 调用 在 当前 处 理 器 上 禁止 中 断 递 交 ， 在 保存 当前 中 断 状态 到 
flags 之 后 . 注意 ，flags 是 直接 传递 ， 不 是 通过 指针 . local_irq disable 关闭 本 地 中 
断 递交 而 不 保存 状态 ; 你 应 当 使 用 这 个 版 本 只 在 你 知道 中 断 没有 在 别处 被 禁 














完成 打开 中 断 ， 使 用 : 


void local irq restore(unsigned long flags); 
void local irq enable(void); 


第 一 个 版 本 恢复 由 local irq save 存储 于 flags 的 状态 ， 而 local irq enable 无 条 
件 打 开 中 断 ， 不 象 disable irq, local irq disable 不 跟踪 多 次 调用 ， 如 果 调 用 链 中 有 
多 于 一 个 函数 可 能 需要 禁止 中 断 ， 应 该 使 用 local irq save. 











在 2.6 内 核 ， 没 有 方法 全 局 性 地 跨 整 个 系统 禁止 所 有 的 中 断 ， 内 核 开 发 者 决定 ， 关 闭 所 
有 中 断 的 开销 太 高 ， 并 且 在 任何 情况 下 没有 必要 有 这 个 能 力 . 如果 你 在 使 用 一 个 旧版 本 驱 
动 ， 它 调用 诸如 cli 和 sti， 你 需要 在 它 在 2.6 下 工作 前 更 新 它 为 使 用 正确 的 加 锁 
























































尽管 ， 一 些 大 系统 明确 使 用 中 断 平 衡 机 制 来 在 系统 间 分 散 中 断 负载 . 








39 这 个 shortint 设备 完成 它 的 任务 ， 通 过 交 蔡 地 写 入 0x00 和 Oxff 到 并 口 . 


10. 3， 前 和 后 半 部 











中 断 处 理 的 一 个 主要 问题 是 如 何在 处 理 中 进行 长 时 间 的 任务 ， 和 营 常 大 量 的 工作 必须 啊 应 一 
个 设备 中 断 来 完成 ， 但 是 中 断 处 理 需 要 很 快 完成 并 且 不 使 中 断 阻 塞 太 长 ， 这 2 个 需要 ( 工 
作 和 速度 ) 彼 此 冲突 ， 留 给 驱动 编写 者 一 点 困扰 . 
































Linux 〈 许 多 其 他 系统 一 起 ) 解决 这 个 问题 通过 将 中 断 处 理 分 为 2 半 . 所谓 的 前 半 部 是 实 
际 响应 中 断 的 函数 一 你 使 用 request irq 注册 的 那个 ， 后 半 部 是 由 前 半 部 调度 来 延 后 
执行 的 函数 ， 在 一 个 更 安全 的 时 间 ， 最 大 的 不 同 在 前 半 部 处 理 和 后 半 部 之 间 是 所 有 的 中 断 
在 后 半 部 执行 时 都 使 能 — 这 就 是 为 什么 它 在 一 个 更 安全 时 间 运 行 ， 在 典型 的 场景 中 ， 前 
半 部 保存 设备 数据 到 一 个 设备 特定 的 缓存 ， 调 度 它 的 后 半 部 ， 并 且 退 出 : 这 个 操作 非常 快 . 
后 半 部 接着 进行 任何 其 他 需要 的 工作 ， 例 如 唤醒 进程 ， 局 动 另 一 个 1/0 操作 ， 等 等 ， 这 
种 设置 允许 前 半 部 来 服务 一 个 新 中 断 而 同时 后 半 部 仍然 在 工作 . 















































几乎 每 个 认真 的 中 断 处 理 都 这 样 划分 ， 例 如 ， 当 一 个 网 络 接口 报告 有 新 报 文 到 达 ， 处 理 者 
只 是 获取 数据 并 且 上 推 给 协议 层 ; 报 文 的 实际 处 理 在 后 半 部 进行 . 


























Linux 内 核 有 2 个 不 同 的 机 制 可 用 来 实现 后 半 部 处 理 ， 我 们 都 在 第 7 章 介绍 ，tasklet 
常常 是 后 半 部 处 理 的 首选 机 制 ;， 它们 非常 快 ， 但 是 所 有 的 tasklet 代码 必须 是 原子 的 . 
tasklet 的 可 选项 是 工作 队列 ， 它 可 能 有 一 个 更 高 的 运行 周期 但 是 允许 睡眠 . 
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下 面 的 讨论 再 次 使 用 short 驱动 ， 当 使 用 一 个 模块 选项 加 载 时 ，short 能 够 被 告知 在 前 / 
后 半 部 模式 使 用 一 个 tasklet 或 者 工作 队列 处 理 者 来 进行 中 断 处 理 ， 在 这 个 情况 下 ， 前 
半 部 快速 地 执行 ; 它 简 单 地 记 住 当前 时 间 并 且 调 度 后 半 部 处 理 ， 后 半 部 接着 负责 将 时 间 编 
码 并 且 唤 醒 任 何 可 能 在 等 待 数据 的 用 户 进程 . 























10.3.1. Tasklet 实现 


记 住 tasklet 是 一 个 特殊 的 函数 ， 可 能 被 调度 来 运行 ， 在 软 中 断 上 下 文 ， 在 一 个 系统 决 
定 的 安全 时 间 中 .它们 可 能 被 调度 运行 多 次 ， 但 是 tasklet 调度 不 累积 ; ; tasklet 只 
运行 一 次 ， 即 便 它 在 被 投放 前 被 重复 请 求 ， 没有 tasklet 会 和 它 自 己 并 行 运行 ， 因 为 它 
只 运行 一 次 ， 但 是 tasklet 可 以 与 SMP 系统 上 的 其 他 tasklet 并 行 运行 ， 因 此， 如 果 
你 的 驱动 有 多 个 tasklet， 它 们 必须 采取 某 类 加 锁 来 避免 彼此 冲突 . 











tasklet 也 保证 作为 函数 运行 在 第 一 个 调度 它们 的 同一 个 CPU E. 因此 ， 一 个 中 断 处 理 
可 以 确保 一 个 tasklet 在 处 理 者 结束 前 不 会 开始 执行 ， 但 是 ， 另 一 个 中 断 当 然 可 能 在 
tasklet 在 运行 时 被 递交 ， 因 此 ，tasklet 和 中 断 处 理 之 间 加 锁 可 能 仍然 需要 . 









































tasklet 必须 使 用 DECLARE TASKLET 宏 来 声明 : 
DECLARE TASKLET (name, function, data); 
name 是 给 tasklet KHT, function 是 调用 来 执行 tasklet ( 它 带 一 个 unsigned 


long 参数 并 且 返 回 void ) 的 函数 ， 以 及 data 是 一 个 unsigned long 值 来 传递 给 
tasklet PAZ. 








short 驱动 声明 它 的 tasklet 如 下 : 


void short do tasklet(unsigned long); 
DECLARE TASKLET(short tasklet, short do tasklet, 0); 





函数 tasklet schedule 用 来 调度 一 个 tasklet 运行 ， 如 果 short 使 用 tasklet-1 来 
加 载 ， 它 安装 一 个 不 同 的 中 断 处 理 来 保存 数据 并 且 调 度 tasklet 如 下 : 








irqreturn t short tl interrupt(int irq, void *dev id, struct pt regs *regs) 
{ 
do gettimeofday((struct timeval *) tv head); /* cast to stop ’ volatile warning */ 
short incr tv(&tv head); 
tasklet schedule(&short tasklet); 
short wq count++; /* record that an interrupt arrived */ 
return IRQ HANDLED; 
} 





实际 的 tasklet Æt, short do_tasklet， 将 在 系统 方便 时 很 快 执行 .如同 前 面 提 过 ， 
这 个 函数 进行 处 理 中 断 的 大 量 工 作 ; 它 看 来 如 此 : 











void short do tasklet (unsigned long unused) 
{ 
int savecount = short wq count, written; 
short wq count = 0; /* we have already been removed from the queue */ 


235 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] O O O 0O IO [] O Linux[] D] E] LU [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
/* 
* The bottom half reads the tv array, filled by the top half, 
* and prints it to the circular text buffer, which is then consumed 
* by reading processes */ 
/* First write the number of interrupts that occurred before this bh */ 
written = sprintf((char *)short head, bh after %6i\n”, savecount); 
short incr bp(&short head, written); 
/* 
* Then, write the time values. Write exactly 16 bytes at a time, 
* so it aligns with PAGE SIZE */ 


do { 
written = sprintf((char *) short head, ”%08u. %06u\n”, 
(int) (tv tail-^tv sec % 100000000), 
(int) (tv tail-^tv usec)); 
short incr bp(&short head, written); 
short incr tv(&tv tail); 
) while (tv tail != tv head) ; 


wake up interruptible(&short queue); /* awake any reading process */ 


} 


在 别 的 东西 中 ， 这 个 tasklet 记录 了 从 它 上 次 被 调用 以 来 有 多 少 中 断 到 达 ， 一 个 如 
short 一 样 的 设备 能 够 在 短 时 间 内 产生 大 量 中 断 ， 因 此 在 后 半 部 执行 前 有 几 个 中 断 到 达 就 
不 是 不 寻 第 的 ， 驱 动 必须 一 直 准 备 这 种 可 能 性 并 且 必 须 能 够 从 前 半 部 留 下 的 信息 中 决定 有 
多 少 工作 要 做 . 


10. 3. 2， 工 作 队 列 


回想 ， 工 作 队列 在 将 来 某 个 时 候 调 用 一 个 函数 ， 在 一 个 特殊 工作 者 进程 的 上 下 文中 ， 因 为 
这 个 工作 队列 函数 在 进程 上 下 文 运行 ， 它 在 需要 时 能 够 睡眠 ， 但是， 你 不 能 从 一 个 工作 队 
列 拷贝 数据 到 用 户 空 间 ， 除 非 你 使 用 我 们 在 15 章 演示 的 高 级 技术 ; 工作 者 进程 不 存 取 任 
何其 他 进程 的 地 址 空间 . 



































short 豫 动 ， 如 果 设 置 wa 选项 为 一 个 非 零 值 来 加 载 ， 为 它 的 后 半 部 处 理 使 用 一 个 工作 队 
列 ， 它 使 用 系统 缺 省 的 工作 队列 ， 因 此 不 要 求 特殊 的 设置 代码 ; 如 果 你 的 驱动 有 特别 的 运 
行 周期 要 求 (或 者 可 能 在 工作 队列 函数 长 时 间 睡 眠 )， 你 可 能 需要 创建 你 自己 的 ， 专 用 的 工 
作 队 列 ， 我 们 确实 需要 一 个 work struct 结构 ， 它 声明 和 初始 化 使 用 下 列 : 






































static struct work struct short wq; 

/* this line is in short init() */ 

INIT WORK(&short wq, (void (*) (void *)) short do tasklet, NULL); 
我 们 的 工作 者 函数 是 short do_tasklet， 我 们 已 经 在 前 面 一 节 看 到 ， 


当 使 用 一 个 工作 队列 ，short 还 建立 另 一 个 中 断 处 理 ， 看 来 如 此 : 





irqreturn t short wq interrupt(int irq, void *dev id, struct pt regs *regs) 


{ 





/* Grab the current time information. */ 
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do gettimeofday((struct timeval *) tv head); 
short incr tv(&tv head); 
/* Queue the bh. Don't worry about multiple enqueueing */ 
schedule work(&short wq); 
short wq count++; /* record that an interrupt arrived */ 
return IRQ HANDLED; 
) 











如 你 所 见 ， 中 断 处 理 看 来 非常 象 这 个 tasklet 版 本 ， 除 了 它 调用 schedule work 来 安排 
后 半 部 处 理 . 


10.4. 中断 共享 


中 断 冲突 的 概念 几乎 是 PC 体系 的 同义词 ， 过 去 ， 在 PC 上 的 IR 线 不 能 服务 多 于 一 个 
设备 ， 并 且 它 们 从 不 足够 结果， 失望 的 用 户 花 费 大 量 时 间 开 着 它们 的 计算 机 ， 尽 力 找到 
一 个 方法 来 使 它们 所 有 的 外 设 一 起 工作 . 





























现代 的 硬件 ， 当 然 ， 己 经 设计 来 允许 中 断 共 享 ;PCI 总 线 要 求 它 ， 因 此 ，Linux 内 核 支持 
在 所 有 总 线 上 中 断 共享 ， 甚 至 是 那些 (例如 ISA 总 线 ) 传统 上 不 被 支持 的 ，2. 6 内 核 的 设 
备 驱 动 应 当 编 写 来 使 用 共享 中 断 ， 如 果 目 标 硬件 能 够 支持 这 个 操作 模式 ， 幸 运 的 是 ， 使 用 
共享 中 断 在 大 部 分 时 间 是 容易 的 . 


10. 4. 1 安装 一 个 共享 的 处 理 者 


共享 中 断 通过 request_irq 来 安装 就 像 不 共享 的 一 样 ， 但 是 有 2 个 不 同 : 














e SA_SHIRQ 位 必须 在 flags 参数 中 指定 ， 当 请 求 中 断 时 . 
。 dev id 参数 必须 是 独特 的 .任何 模块 地 址 空间 的 指针 都 行 ， 但 是 dev id 明确 地 
不 能 设置 为 NULL. 

















内 核 保持 着 一 个 与 中 断 相 关联 的 共享 处 理 者 列表 ， 并 且 dev id 可 认为 是 区 别 它们 的 签名 . 
如 果 2 个 驱动 要 在 同一 个 中 断 上 注册 NULL 作为 它们 的 签名 ， 在 卸载 时 事情 可 能 就 乱 了 ， 

在 中 断 到 的 时 候 引 发 内 核 oops， 由 于 这 个 理由 ， 如 果 在 注册 共享 中 断 时 传 给 了 一 个 NULL 
dev id ， 现 代 内 核 会 大 声 抱 怨 .， 当 请 求 一 个 共享 的 中 断 ，request_irg 成 功 ， 如 果 下 列 

之 二 是 真 : 














。 PHREN. 
。 所 有 这 条 线 的 已 经 注册 的 处 理 者 也 指定 共享 这 个 IRA. 








无 论 何 时 2 个 或 多 个 驱动 在 共享 中 断 线 ， 并 且 硬 件 中 断 在 这 条 线 上 中 断 处 理 器 ， 内 核 为 
这 个 中 断 调 用 每 个 注册 的 处 理 者 ， 传 递 它 的 dev id 给 每 个 ， 因 此 ， 一 个 共享 的 处 理 者 必 
须 能 够 识别 它 自 己 的 中 断 并 且 应 当 快 速 退 出 当 它 自 己 的 设备 没有 被 中 断 时 ， 确 认 返 回 
IRQ NONE 无 论 何 时 你 的 处 理 者 被 调用 并 且 发 现 设备 没 被 中 断 . 






































如 果 你 需要 探测 你 的 设备 ， 在 请 求 IRQ 线 之 前 ， 内 核 无 法 帮 你 .没有 探测 函数 可 给 共享 
处 理 者 使 用 ， 标 准 的 探测 机 制 有 效 如 果 使 用 的 线 是 空闲 的 ， 但 是 如 果 这 条 线 已 经 被 另 一 个 
有 共享 能 力 的 驱动 持 有 ， 欣 测 失败 ， 即 便 你 的 张 动 已 正常 工作 ， 笠 运 的 是 ， 大 部 分 设计 为 
中 断 共 享 的 人 硬件 能 够 告知 处 理 器 它 在 使 用 哪个 中 断 ， 因 此 减少 明显 的 探测 的 需要 . 
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释放 处 理 者 以 正常 方式 进行 ， 使 用 free irq. 这 里 dev id 参数 用 来 从 这 个 中 断 的 共享 
处 理 者 列表 中 选择 正确 的 处 理 者 来 释放 .这 就 是 为 什么 dev id 指针 必须 是 独特 的 . 



































一 个 使 用 共享 处 理 者 的 驱动 需要 小 心 多 一 件 事 : 它 不 能 使 用 enable irq 或 者 
disable_irq， 如 果 它 用 了 ， 对 其 他 共享 这 条 线 的 设备 就 乱 了 ; 禁止 另 一 个 设备 的 中 断 即 
便 短 时 间 也 可 能 产生 延 时 ， 这 对 这 个 设备 和 它 的 用 户 是 有 问题 的 通常， 程序 员 必 须 记 住 ， 
他 的 驱动 不 拥有 这 个 IR8， 并 且 它 的 行为 应 当 比 它 拥 有 这 个 中 断 线 更 加 ”社会 性 ”. 


10. 4. 2， 运 行 处 理 者 


如 同 前 面 建议 的 ， 当 内 核 收 到 一 个 中 断 ， 所 有 的 注册 的 处 理 者 被 调用 ， 一 个 共享 的 处 理 者 
必须 能 够 在 它 需 要 的 处 理 的 中 断 和 其 他 设备 产生 的 中 断 之 间 区 分 . 






































使 用 shared-l 选项 来 加 载 short 安装 了 下 列 处 理 者 来 代替 缺 省 的 : 


irqreturn t short sh interrupt(int irq, void *dev id, struct pt regs *regs) 
{ 
int value, written; 
struct timeval tv; 
/* If it wasn’ t short, return immediately */ 
value = inb(short base); 
if (!(value & 0x80)) 
return IRQ NONE; 
/* clear the interrupting bit */ 
outb (value & 0x7F, short base); 
/* the rest is unchanged */ 
do gettimeofday (&tv) ; 
written = sprintf ((char *)short head, ”%08u. %06u\n”, 
(int) (tv. tv sec % 100000000), (int) (tv. tv usec)) ; 
short incr bp(&short head, written); 
wake up interruptible(&short queue); /* awake any reading process */ 
return IRQ HANDLED; 
) 


这 里 应 该 有 个 解释 .因为 并 口 没 有 ”中断 挂 起 “位 来 检查 ， 处 理 者 使 用 ACK 位 作 此 目的 . 
如 果 这 个 位 是 高 ， 正 报告 的 中 断 是 给 short， 并 且 这 个 处 理 者 清除 这 个 位 . 


























处 理 者 通过 并 口 数据 端口 的 清 零 来 复位 这 个 位 一 short 假设 管 脚 9 和 10 连 在 一 起 . 
如 果 其 他 一 个 和 short 共享 这 个 IRQ 的 设备 产生 一 个 中 断 ，short 看 到 它 的 线 仍然 非 激 
活 并 且 什 么 不 作 . 

















当然 ， 一 个 功能 齐全 的 驱动 可 能 将 工作 划分 位 前 和 后 半 部 ， 但 是 容易 添加 并 且 不 会 有 任何 
影响 实现 共享 的 代码 ， 一 个 真实 驱动 还 可 能 使 用 dev id 参数 来 决定 ， 在 很 多 可 能 的 中 ， 
哪个 设备 在 中 断 . 

















注意 ， 如 果 你 使 用 打印 机 ( 代 蔡 跳 线 ) 来 测试 使 用 short 的 中 断 管理 ， 这 个 共享 的 处 理 者 
不 象 所 说 的 一 样 工 作 , 因为 打印 机 协议 不 允许 共享 ， 并 且 了 驱动 不 知道 是 否 这 个 中 断 是 来 日 
打印 机 . 
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10.4.3. /proc 接口 和 共享 中 断 


在 系统 中 安装 共享 处 理 者 不 影响 /proc/stat， 它 甚至 不 知道 处 理 者 .但 是 ， 
/proc/interrupts 稍稍 变化 . 




















所 有 同一 个 中 断 号 的 安装 的 处 理 者 出 现在 /proc/interrupts 的 同一 行 ， 下列 输 出 ( 从 一 
个 x86 64 系统 ) 显示 了 共享 中 断 处 理 是 如 何 显示 的 : 











CPUO 
0: 892335412 XT-PIC timer 
1: 453971 XT-PIC i8042 
2: 0 XT-PIC cascade 
5: 0 XT-PIC libata, ehci_hcd 
8: 0 XT-PIC rtc 
9: 0 XT-PIC acpi 
10: 11365067 XT-PIC ide2, uhci_hcd, uhci_hcd, SysKonnect SK-98xx, EMUIOKI 
11: 4391962 XT-PIC uhci_hcd, uhci_hcd 
12: 224 XT-PIC i8042 
14: 2787121 XT-PIC ideO 
15: 203048 XT-PIC idel 
NMI: 41234 
LOC: 892193503 
ERR: 102 
MIS: 0 


这 个 系统 有 几 个 共享 中 断 线 ，IRQ 5 用 来 给 串 行 ATA 和 IEEE 1394 控制 器 ; IRQ 10 有 


几 个 设备 ， 包 括 一 个 IDE 控制 器 ，2 个 USB 控制 器 ， 一 个 以 太 网 接口 ， 以 及 一 个 声卡 ; 
并 且 IRQ 11 也 被 2 个 USB 控制 器 使 用 . 


10.5. PIK I/O 


JG Te frr — 1 2o 325 8] jV. E] BUET EBEE fS SUAM EERE RD E SEX, — DC 3 3 I2 
现 缓存 ， 数 据 缓存 帮助 来 分 离 数 据 传送 和 接收 从 写 和 读 系 统 调用 ， 并 且 整 个 系统 性 能 受益 























一 个 好 的 缓存 机 制 产 生 了 中 断 驱 动 的 I/0， 一 个 输入 缓存 在 中 断 时 填充 并 且 被 读 取 设 备 的 
进程 清空 ; 一 个 输出 缓存 由 写 设 备 的 进程 填充 并 且 在 中 断 时 清空 ， 一 个 中 断 张 动 的 输出 的 
例子 是 /dev/shortprint 的 实现 . 














为 使 中 断 驱 动 的 数据 传送 成 功 发 生 ， 和 硬件 应 当 能 够 产生 中 断 ， 使 用 下 列 语义 : 


。 对 于 输入 ， 设 备 中 断 处 理 器 ， 当 新 数据 到 达 时 ， 并 且 准 备 好 被 系统 处 理 器 获取 XE 
行 的 实际 动作 依赖 是 否 设备 使 用 L/O 端口 ， 内 存 映射 ， 或 者 DMA. 

。 对 于 输出 ， 设 备 递交 一 个 中 断 ， 或 者 当 它 准备 好 接受 新 数据 ， 或 者 确认 一 个 成 功 的 
数据 传送 ， 内 存 映 射 的 和 能 DMA 的 设备 常常 产生 中 断 来 告诉 系统 它们 完成 了 这 个 绥 
ff. 











在 一 个 读 或 写 与 实际 数据 到 达 之 间 的 时 间 关 系 在 第 6 章 的 “阻塞 和 非 阻塞 操作 — T rp Ar 


绍 . 
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10. 5. 1， 一 个 写 缓存 例子 


我 们 已 经 几 次 提 及 shortprint 驱动 ; 现在 是 时 候 真 正 看 看 .这 个 模块 为 并 口 实现 一 个 非 
常 简单 ， 面 向 输出 的 驱动 ; 它 是 足够 的 ， 但 是 ， 来 使 能 文件 打印 ， 如 果 你 选择 来 测试 这 个 
驱动 ， 但 是 ， 记 住 你 必须 传递 给 打印 机 一 个 文件 以 它 理解 的 格式 ; 不 是 所 有 的 打印 机 在 给 
一 个 任意 数据 的 流 时 很 好 响应 . 

















shortprint 驱动 维护 一 个 一 页 的 环形 输出 缓存 ， 当 一 个 用 户 空间 进程 写 数据 到 这 个 设备 ， 
数据 被 填 入 缓存 ， 但 是 写 方法 实际 没有 进行 任何 1/0. 相反 ，shortp_write 的 核心 看 来 
如 此 : 








while (written € count) 
{ 

/* Hang out until some buffer space is available. */ 

space = shortp out space(); 

if (space <= 0) { 

if (wait event interruptible(shortp out queue, 
(space = shortp out space() > 0)) 
goto out; 


) 


/* Move data into the buffer. */ 
if ((space + written) > count) 
space = count - written; 


if (copy from user((char *) shortp out head, buf, space)) { 
up(&shortp out sem); 
return -EFAULT; 

} 

shortp incr out bp(&shortp out head, space); 

buf *- space; 

written += space; 


/* If no output is active, make it active. */ 
spin lock irqsave(&shortp out lock, flags); 
if (! shortp output active) 
shortp start output () ; 
spin unlock irgrestore(&shortp out lock, flags); 
) 
out: 
*f pos += written; 


一 个 旗 标 ( shortp out sem ) 控制 对 这 个 环形 缓存 的 存 取 ; shortp write 就 在 上 面 的 
代码 片段 之 前 获得 这 个 旗 标 . 当 持 有 这 个 旗 标 ， 它 试图 输入 数据 到 这 个 环形 缓存 .函数 
shortp out space 返回 可 用 的 连续 空间 的 数量 (因此 ， 没 有 必要 担心 缓存 回 绕 ) ; 如 果 这 
个 量 是 0， 驱 动 等 到 释放 一 些 空间 . 它 接着 找 贝 它 能 够 的 数量 的 数据 到 缓存 中 . 











一 旦 有 数据 输出 ，shortp_write 必须 确保 数据 被 写 到 设备 ， 数 据 的 写 是 通过 一 个 工作 队 
列 函 数 完成 的 ; shortp write 必须 启动 这 个 函数 如 果 它 还 未 在 运行 在 获取 了 一 个 单独 
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的 ， 控 制 存 取 输出 缓存 的 消费 者 一 侧 ( 包 括 shortp output active) 的 数据 的 自 旋 锁 后 ， 
它 调 用 shortp start output 如 果 需 要 . 接着 只 是 注意 多 少数 据 被 写 到 缓存 并 且 返 回 . 








局 动 输出 进程 的 函数 看 来 如 下 : 


static void shortp start output (void) 
{ 
if (shortp output active) /* Should never happen */ 
return; 


/* Set up our ’ missed interrupt? timer */ 
shortp output active = 1; 
shortp timer.expires = jiffies + TIMEOUT; 
add timer(&shortp timer); 


/* And get the process going. */ 
queue work(shortp workqueue, &shortp work); 


} 














处 理 硬 件 的 事实 是 ， 你 可 以 ， 人 偶尔， 丢失 来 自 设备 的 中 断 ， 当 发 生 这 个 ， 你 确实 不 想 你 的 
驱动 一 直 停止 直到 系统 重启 ; 这 不 是 一 个 用 户 友 好 的 做 事 方式 ， 最 好 是 认识 到 一 个 中 断 已 
经 丢失 ， 收 拾 残局 ， 继 续 ， 为 此 ，shortprint 甚至 一 个 内 核定 时 器 无 论 何 时 它 输出 数据 
给 设备 ， 如 果 时 钟 超 时 ， 我 们 可 能 丢失 一 个 中 断 ， 我 们 很 快 会 看 到 定时 器 函数 ， 但 是 ， 和 暂 
时 ， 让 我 们 坚持 在 主 输出 功能 上 ， 那 是 在 我 们 的 工作 队列 函数 里 实现 的 ， 它 ， 如 同 你 上 面 
看 到 的 ， 在 这 里 被 调度 .那个 函数 的 核心 看 来 如 下 : 











spin lock irqsave(&shortp out lock, flags); 
/* Have we written everything? */ 
if (shortp out head == shortp out tail) 
{ /* empty */ 
shortp output active - 0; 
wake up interruptible(&shortp empty queue); 
del timer(&shortp timer); 
) 
/* Nope, write another byte */ 
else 
shortp do write(); 
/* lf somebody’ s waiting, maybe wake them up. */ 
if (((PAGE SIZE + shortp out tail -shortp out head) % PAGE SIZE) > SP MIN SPACE) 
{ 
wake up interruptible(&shortp out queue); 
} 


spin unlock irqrestore(&shortp out lock, flags); 








因为 我 们 在 使 用 共享 变量 的 输出 一 侧 ， 我 们 必须 获得 自 旋 锁 ， 接 着 我 们 看 是 否 有 更 多 的 数 
据 要 发 送 ; 如 果 无 ， 我 们 注意 输出 不 再 激活 ， 删 除 定时 器 ， 并 且 唤 醒 任 何在 等 待 队 列 全 空 
的 进程 (这 种 等 待 当 设备 被 关闭 时 结束 ) 如果， 相反 ， 有 数据 要 写 ， 我 们 调用 

shortp do write 来 实际 发 送 一 个 字 节 到 硬件 . 























接着 ， 因 为 我 们 可 能 在 输出 缓存 中 有 空闲 空间 ， 我 们 考虑 唤醒 任何 等 待 增加 更 多 数据 给 那 
个 缓存 的 进程 但 是 我 们 不 是 无 条 件 进行 唤醒 ; 相反， 我们 等 到 有 一 个 最 低 数 量 的 空间 . 
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每 次 我 们 从 缓存 拿 出 一 个 字 节 就 唤醒 一 个 写 者 是 无 意义 的 ; 唤醒 进程 的 代价 ， 调 度 它 运行 ， 
并 且 使 它 重 回 睡眠 ， 太 高 了 . 相反， 我 们 应 当 等 到 进程 能 够 立刻 移动 相当 数量 的 数据 到 绥 
存 ， 这 个 技术 在 缓存 的 ， 中 断 驱 动 的 驱动 中 是 普通 的 . 




















为 完整 起 见 ， 这 是 实际 写 数据 到 端口 的 代码 : 


static void shortp do write(void) 
{ 
unsigned char cr = inb(shortp base + SP_CONTROL) ; 
/* Something happened; reset the timer */ 
mod_timer (&shortp_timer, jiffies + TIMEOUT) ; 
/* Strobe a byte out to the device */ 
outb p(*shortp out tail, shortp base*SP DATA); 
shortp incr out bp(&shortp out tail, 1); 
if (shortp delay) 
udelay(shortp delay); 
outb p(cr | SP CR STROBE, shortp base-SP CONTROL); 
if (shortp delay) 
udelay(shortp delay); 
outb p(cr & "SP CR STROBE, shortp base+SP CONTROL); 
) 





这 里 ， 我 们 复位 定时 器 来 反映 一 个 事实 ， 我 们 已 经 作 了 一 些 处 理 ， 输 送 字 节 到 设备 ， 并 且 
更 新 了 环形 缓存 指针 . 








工作 队列 函数 没有 直接 重新 提交 它 自 己 ， 因 此 只 有 一 个 单个 字 节 会 被 写 入 设备 ， 在 某 一 处 ， 
打印 机 将 ， 以 它 的 缓慢 方式 ， 消 耗 这 个 字 节 并 且 准 备 好 下 一 个 ; 它 将 接着 中 断 处 理 器 . 
shortprint 中 使 用 的 中 断 处理 是 简短 的 : 











static irqreturn t shortp interrupt(int irq, void *dev id, struct pt regs *regs) 
i 

if (! shortp output active) 

return IRQ NONE; 

/* Remember the time, and farm off the rest to the workqueue function */ 

do gettimeofday (&shortp tv); 

queue work(shortp workqueue, &shortp work); 

return IRQ HANDLED; 
) 























因为 并 口 不 要 求 一 个 明显 的 中 断 确认 ， 中 断 处 理 所 有 真正 需要 做 的 是 告知 内 核 来 再 次 运行 
工作 队列 函数 . 








如 果 中 断 永远 不 来 如 何 ? 至 此 我 们 已 见 到 的 张 动 代 码 将 简单 地 停止 ， 为 避免 发 生 这 个 ， 我 
们 设置 了 一 个 定时 器 在 几 页 前 ， 当 定时 器 超时 运行 的 函数 是 : 








static void shortp timeout(unsigned long unused) 
{ 
unsigned long flags; 
unsigned char status; 
if (! shortp output active) 
return; 
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spin lock irqsave(&shortp out lock, flags); 
status = inb(shortp base + SP STATUS); 


/* If the printer is still busy we just reset the timer */ 
if ((status & SP SR BUSY) == 0 || (status & SP SR AC) { 


shortp timer.expires = jiffies + TIMEOUT; 
add timer(&shortp timer); 
spin unlock irqrestore(&shortp out lock, flags); 
return; 

} 

/* Otherwise we must have dropped an interrupt. */ 

spin unlock irgrestore(&shortp out lock, flags); 

shortp interrupt(shortp irg, NULL, NULL); 

) 








如 果 没 有 输出 要 被 激活 ， 定 时 器 函数 简单 地 返回 ， 这 避免 了 定时 器 重新 提交 自己 ， 当 事情 
在 被 关闭 时 .接着 ， 在 获得 了 锁 之 后 ， 我 们 查询 端口 的 状态 ;如 果 它 声称 忙 ， 它 完全 还 没 
有 时 间 来 中 断 我 们 ， 因 此 我 们 复位 定时 器 并 且 返 回 ， 打 印 机 能 够 ， 有 时 ， 花 很 长 时 间 来 使 
目 己 准 备 ; 考虑 一 下 缺 纸 的 打印 机 ， 而 每 个 人 在 一 个 长 周末 都 不 在 ， 在 这 种 情况 下 ， 只 
耐心 等 待 直到 事情 改变 . 


但 是 ， 如 果 打 印 机 声称 准备 好 了 ， 我 们 一 定 丢 失 了 它 的 中 断 ， 这 个 情况 下 ， 我 们 简单 地 手 
动 调用 我 们 的 中 断 处 理 来 使 输出 处 理 再 动 起 来 . 

















shortpirnt 驱动 不 文 持 从 端口 读数 据 ; 相反 ， 它 象 shortint 并 且 返 回 中 断 时 间 信 息 . 
但 是 一 个 中 断 驱 动 的 读 方 法 的 实现 可 能 非常 类 似 我 们 已 经 见 到 的 .从 设备 来 的 数据 可 能 被 
读 入 驱动 缓存 ; 它 可 能 被 拷贝 到 用 户 空 间 只 在 缓存 中 已 经 累积 了 相当 数量 的 数据 ， 完 整 的 
读 请 求 已 被 满足 ， 或 者 某 种 超时 发 生 . 


10.6. 快速 参考 


本 章 中 介绍 了 这 些 关于 中 断 管理 的 符号 : 
































#include <linux/interrupt. h> 

int request irq(unsigned int irq, irqreturn t (*handler)( ), unsigned long flags, const 
char *dev name, void *dev id); 

void free irq(unsigned int irq, void *dev id); 


调用 这 个 注册 和 注销 一 个 中 断 处 理 . 





#include <linux/irq. h. h> 
int can request irq(unsigned int irq, unsigned long flags); 


这 个 函数 ， 在 1386 和 x86 64 体系 上 有 ， 返 回 一 个 非 零 值 如 果 一 个 分 配给 定 中 断 
线 的 企图 成 功 . 





&include <asm/signal. h> 
SA INTERRUPT 
SA SHIRQ 


243 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] O O O 0O IO [] O Linux[] HD] E] UL] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 


SA SAMPLE RANDOM 





给 request irq 的 标志 . SA INTERRUPT 请 求 安装 一 个 快速 处 理 者 ( 相反 是 一 个 慢 
XE). SA SHIRQ 安装 一 个 共享 的 处 理 者 ， 并 且 第 3 个 flag 声称 中 断 时 戳 可 用 











/proc/interrupts 
/proc/stat 





报告 硬件 中 断 和 安装 的 处 理 者 的 文件 系统 节点 . 





unsigned long probe irq on(void); 


int probe irq off(unsigned long); 








驱动 使 用 的 函数 ， 当 它 不 得 不 探测 来 决定 哪个 中 断 线 被 设备 在 使 用 . probe irq on 
的 结果 必须 传 回 给 probe_irq_off 在 中 断 产生 之 后 .probe_irq_off 的 返回 值 是 
被 探测 的 中 断 号 . 








IRQ NONE 
IRQ HANDLED 
IRQ RETVAL(int x) 


void 
void 
void 


void 
void 


void 
void 





从 一 个 中 断 处 理 返回 的 可 能 值 ， 指 示 是 否 一 个 来 自 设 备 的 真正 的 中 断 出 现 了 . 





disable irq(int irg); 
disable irq nosync(int irq); 
enable irq(int irg); 


驱动 可 以 使 能 和 禁止 中 断 报告 ， 如 果 硬 件 试图 在 中 断 蔡 止 时 产生 一 个 中 断 ， 这 个 中 
断 永 远 于 失 了 ， 一 个 使 用 一 个 共享 处 理 者 的 驱动 必须 不 使 用 这 个 函数 . 














local irq save(unsigned long flags); 
local irq restore(unsigned long flags); 





使 用 local irq save 来 禁止 本 地 处 理 器 的 中 断 并 且 记 住 它们 之 前 的 状态 . flags 
可 以 被 传递 给 local irq restore 来 恢复 之 前 的 中 断 状 态 . 





local irq disable(void) ; 
local irq enable(void); 





FE A B] RE EERE NA JC A T FS LEAISE fr P DB PE PR 2C 
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第 11 3€ 内 核 中 的 数据 类 型 


在 我 们 进入 更 高 级 主题 之 前 ， 我 们 需要 停 下 来 快速 关注 一 下 可 移植 性 问题 ， 现 代 版 本 的 Linux WEGE 
高 度 可 移植 的 ， 它 正 运 行 在 很 多 不 同体 系 上 .由 于 Linux 内 核 的 多 平台 特性 ， 打 算 做 认真 使 用 的 驱动 
应 当 也 是 可 移植 的 . 





























但 是 内 核 代 码 的 一 个 核心 问题 是 不 但 能 够 存 取 已 知 长 度 的 数据 项 (例如 ， 文 件 系统 数据 结构 或 者 设备 单 
板 上 的 寄存 器 )， 而 且 可 以 使 用 不 同 处 理 器 的 能 力 (32- 位 和 64- 位 体系 ， 并 且 也 可 能 是 16 位 ). 

















内 核 开 发 者 在 移植 x86 代码 到 新 体系 时 遇 到 的 几 个 问题 与 不 正确 的 数据 类 型 相关 .坚持 严格 的 数据 类 
型 和 使 用 -Wall -Wstrict-prototypes 进行 编译 可 能 避免 大 部 分 的 bug. 















































内 核 数据 使 用 的 数据 类 型 分 为 3 个 主要 类 型 : 标准 C 类 型 例如 int， 明 确 大 小 的 类 型 例如 u32， 以 及 
用 作 特 定 内 核对 象 的 类 型 ， 例 如 pidt. 我 们 将 看 到 这 3 个 类 型 种 类 应 当 什 么 时 候 以 及 应 当 如 何 使 用 . 
本 章 的 最 后 的 节 谈论 一 些 其 他 的 典型 问题 ， 你 在 移植 x86 的 驱动 到 其 他 平台 时 可 能 遇 到 的 问题 ， 并 且 
介绍 近期 内 核 头 文件 输出 的 链表 的 常用 支持 ， 


















































如 果 你 遵照 我 们 提供 的 指引 ， 你 的 驱动 应 当 编 译 和 运行 在 你 无 法 测试 的 平台 上 . 


11. 1. 标准 C 类 型 的 使 用 


尽管 大 部 分 程序 员 习 惯 自由 使 用 标准 类 型 ， 如 int 和 long， 编 号 设备 驱动 需要 一 些小 心 
来 避免 类 型 冲突 和 模糊 的 bug. 


























这 个 问题 是 你 不 能 使 用 标准 类 型 ， 当 你 需要 “一 个 2- 字 节 填充 者 或 者 ”一 个 东西 来 代表 
一 个 4- 字 节 字 串 “， 因 为 正常 的 C 数据 类 型 在 所 有 体系 上 不 是 相同 大 小 ， 为 展示 各 种 C 
类 型 的 数据 大 小 ，datasize 程序 已 包含 在 例子 文件 misc-progs 目录 中 ， 由 0 
Reilly s FTP 站 点 提供 .这 是 一 个 程序 的 样 例 运行 ， 在 一 个 1386 系统 上 (显示 的 最 后 4 
个 类 型 在 下 一 章 介 绍 ) : 

















morgana% misc-progs/datasize 
arch Size: char short int long ptr long-long u8 ul6 u32 u64 
1686 1 2 4 4 4 8 12 4 8 


这 个 程序 可 以 用 来 显示 长 整 型 和 指针 在 64- 位 平台 上 的 不 同 大 小 ， 如 同 在 不 同 Linux ik 
算 机 上 运行 程序 所 演示 的 : 











nt long ptr long-long u8 ul6 u32 u64 
4 8 12 4 8 


arch Size: char short 
1386 1 
alpha 1 
armv4l 1 
ia64 1 
m68k 1 
mips 1 
ppc 1 
sparc 1 
sparc64 1 

1 


i 
4 
4 
4 
4 
4 
4 
4 
4 
4 
x86 64 4 


mm P2 P2 
OOo A Gs des de 4 00 4 OO g 
co A A A d 4 00 2Ó co 
OO OO OO co CO OO CO CO OO 
Lr LnmLnmLnmLnnr—nrx sex as 
MS BS DD BS DD ko P2 
Sog o Go Ge og 4g 4 ug 
œo OO CO CO CO CO CO CO CO 
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注意 有 趣 的 是 SPARC 64 体系 在 一 个 32-1 用 户 空间 运行 ， 因 此 那里 指针 是 32 位 宽 ， 
尽管 它们 在 内 核 空间 是 64 位 宽 ， 这 可 用 加 载 kdatasize 模块 (在 例子 文件 的 misc- 
modules 目录 里 ) 来 验证 ， 这 个 模块 在 加 载 时 使 用 printk 来 报告 大 小 信息 ， 并 且 返 回 一 
个 错误 ( AERA ORRE ) : 




















kernel: arch Size: char short int long ptr long-long u8 ul6 u32 u64 
kernel: sparc64 1 2 4 8 8 8 1 2 4 8 





尽管 在 混合 不 同 数据 类 型 时 你 必须 小 心 ， 有 时 有 很 好 的 理由 这 样 做 ， 一 种 情况 是 因为 内 存 
存 取 ， 与 内 核 相 关 时 是 特殊 的 ,概念 上 ， 尺 管 地 址 是 指针 ， 内 存 管理 常常 使 用 一 个 无 符号 
的 整数 类 型 更 好 地 完成 ， 内 核对 待 物理 内 存 如 同一 个 大 数组 ， 并 且 内 存 地 址 只 是 一 个 数组 
索引 ， 进 一 步 地 ， 一 个 指针 容易 解 引 用 ; 当 直 接 处 理 内 存 存 取 时 ， 你 几乎 从 不 想 以 这 种 方 
式 解 引用 .使 用 一 个 整数 类 型 避免 了 这 种 解 引用 ， 因 此 避免 了 bug， 因 此 ， 内 核 中 通常 的 
内 存 地 址 常常 是 unsigned long， 利 用 了 指针 和 长 整 型 一 直 是 相同 大 小 的 这 个 事实 ， 至 少 
在 Linux 目前 支持 的 所 有 平台 上 . 













































































因为 其 所 值 的 原因 ，C99 标准 定义 了 intptr_t 和 uintptr_t 类 型 给 一 个 可 以 持 有 一 个 
各 针 值 的 整 型 变量 . 但 是 ， 这 些 类 型 几乎 没 在 2.6 内 核 中 使 用 . 


11. 2， 安 排 一 个 明确 大 小 给 数据 项 


有 时 内 核 代 码 需 要 一 个 特定 大 小 的 数据 项 ， 也 许 要 匹配 预定 义 的 二 进 制 结 构 ，” 来 和 用 户 
空间 通讯 ， 或 者 来 用 插入 “填充 “字段 来 对 齐 结构 中 的 数据 ( 但 是 关于 对 齐 问题 的 信息 参考 
“数据 对 齐 ” 一 节 ). 



































内 核 提 供 了 下 列 数据 类 型 来 使 用 ， 无 论 你 什么 时 候 需 要 知道 你 的 数据 的 大 小 ， 所 有 的 数据 
声明 在 Xasm/types.h», ' X4 <linux/types. b 包含 . 


u8; /* unsigned byte (8 bits) */ 
ul6; /* unsigned word (16 bits) */ 
u32; /* unsigned 32-bit value */ 
u64; /* unsigned 64-bit value */ 











存在 对 应 的 有 符号 类 型 ， 但 是 很 少 需要 ; 如果 你 需要 它们 ， 只 要 在 名 子 里 用 s 代替 u. 

















如 果 一 个 用 户 空间 程序 需要 使 用 这 些 类 型 ， 可 用 使 用 一 个 双 下 划 线 前 级 在 名 子 上 : — u8 
和 其 它 独 立 于 — KERNEL ”定义 的 类 型 ， 例如， 如 果 ， 一 个 驱动 需要 与 用 户 空间 中 运行 的 
程序 交换 二 进 制 结构 ， 通 过 ioct1， 头 文件 应 当 在 结构 中 声明 32- 位 成 员 为 _u32. 























重要 的 是 记 住 这 些 类 型 是 Linux 特定 的 ， 并 且 使 用 它们 妨碍 了 移植 软件 到 其 他 的 Unix 
口味 上 . 使 用 近期 编译 器 的 系统 支持 C99- 标 准 类 型 ， 例 如 uint8_t 和 uint32 t; 如 果 
考虑 到 移植 性 ， 使 用 这 些 类 型 比 Linux- 特 定 的 变 体 要 好 . 






































你 可 能 也 注意 到 有 时 内 核 使 用 传统 的 类 型 ， 例 如 unsigned int， 给 那些 维 数 与 体系 无 关 
的 项 ， 这 是 为 后 向 兼容 而 做 的 ， 当 u32 和 它 的 类 似 物 在 版 本 1.1.67 引入 时 ， 开 发 者 不 
能 改变 存在 的 数据 结构 为 新 的 类 型 ， 因 为 编译 器 发 出 一 个 警告 当 在 结构 成 员 和 安排 给 它 的 
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值 之 间 有 一 个 类 型 不 匹配 时 . Linus 不 希望 他 写 给 自己 使 用 的 操作 系统 称 为 多 平台 的 ; 
结果 是 ， 老 的 结构 有 时 被 松散 的 键入 . 














事实 上 ， 编 译 器 指示 类 型 不 一 致 ， 甚 至 在 2 个 类 型 只 是 同一 个 对 象 的 不 同名 子 ， 例 如 在 
PC 上 unsigned long 和 u32. 


S 这 发 生 在 当 读 取 分 区 表 时 ， 当 执行 一 个 二 进 制 文件 时 ， 或 者 当 解 码 一 个 网 络 报 文 时 . 


11. 3， 接 口 特定 的 类 型 


内 核 中 一 些 通常 使 用 的 数据 类 型 有 它们 自己 的 typedef 语句 ， 因 此 阻止 了 任何 移植 性 问 
题 ， 例如， 一 个 进程 标识 符 〈 pid ) 常 第 是 pid t 而 不 是 int. 使 用 pid t 屏蔽 了 任 
何在 实际 数据 类 型 上 的 不 同 ， 我 们 使 用 接口 特定 的 表达 式 来 指 一 个 类 型 ， 由 一 个 库 定义 的 ， 
以 便于 提供 一 个 接口 给 一 个 特定 的 数据 结构 . 












































注意 ， 在 近期 ， 已 经 相对 少 定义 新 的 接口 特定 类 型 ， 使 用 typedef 语句 已 经 有 许多 内 核 
开发 者 不 喜欢 ， 它 们 宁愿 看 到 代码 中 直接 使 用 的 真实 类 型 信息 ， 不 是 藏 在 一 个 用 户 定 义 的 
类 型 后 面 ， 很 多 老 的 接口 特定 的 类 型 在 内 核 中 保留 ， 但 是 ， 并 且 和 它们 不 会 很 快 消失 . 
































甚至 当 没有 定义 接口 特定 的 类 型 ， 以 和 内 核 其 他 部 分 保持 一 致 的 方式 使 用 正确 的 数据 类 型 
是 一 直 重 要 的 .一 个 暗 叭 计数 ， 例 如 ， 一 直 是 unsigned long， 独 立 于 它 实际 的 大 小 ， 因 
此 unsigned long 类 型 应 当 在 使 用 jiffy 时 一 直 使 用 .本 节 我 们 集中 于 t 类 型 的 使 用 . 


























很 多 _t 类 型 在 “linux/types.h> 中 定义 ， 但 是 列 出 来 是 很 少 有 用 当 你 需要 一 个 特定 
类 型 ， 你 会 在 你 需要 调用 的 函数 的 原型 中 发 现 它 ， 或 者 在 你 使 用 的 数据 结构 中 ， 























无 论 何 时 你 的 驱动 使 用 需要 这 样 “ 定 制 “ 类 型 的 函数 并 且 你 不 遵照 惯例 ， 编 译 器 发 出 一 个 警 
tr; 如 果 你 使 用 -Wall 编译 器 标志 并 且 小 心 去 除 所 有 的 警告 ， 你 能 有 信心 你 的 代码 是 可 
移植 的 . 























_t 数据 项 的 主要 问题 是 当 你 需要 打印 它们 时 ， 常 常 不 容易 选择 正确 的 printk 或 printf 
格式 ， 你 在 一 个 体系 上 出 现 的 警告 会 在 男 一 个 上 重新 出 现 . 例 如， 你 如 何 打 印 一 个 
size_t， 它 在 一 些 平台 上 是 unsigned long 而 在 其 他 某 个 上 面 是 unsigned int? 











无 论 何 时 你 需要 打印 某 个 接口 特定 的 数据 ， 最 好 的 方法 是 转换 它 的 值 为 最 大 的 可 能 类 型 

(常常 是 long 或 者 unsigned long ) 并 且 接 着 打印 它 通 过 对 应 的 格式 .这 种 调整 不 会 产 
生 错 误 或 者 警告 ， 因 为 格式 匹配 类 型 ， 并 且 你 不 会 丢失 数据 位 ， 因 为 这 个 转换 或 者 是 一 个 
空 操作 或 者 是 数据 项 向 更 大 数据 类 型 的 扩展 . 








实际 上 ， 我 们 在 谈论 的 数据 项 不 会 常常 要 打印 的 ， 因 此 这 个 问题 只 适用 于 调试 信息 ， 常 常 ， 
代码 只 需要 存储 和 比较 接口 特定 的 类 型 ， 加 上 传递 它们 作为 给 库 或 者 内 核 函数 的 参数 . 












































尽管 t 类 型 是 大 部 分 情况 的 正确 解决 方法 ， 有 时 正确 的 类 型 不 存 取 . 这 发 生 在 某 些 还 未 
被 清理 的 老 接口 . 
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我 们 在 内 核 头 文件 中 发 现 的 一 个 模糊 之 处 是 用 在 I/0 函数 的 数据 类 型 ， 它 松散 地 定义 
( 看 第 9 章 “ 平 台 相 关 性 ”一 节 )， 松 散 的 类 型 在 那里 主要 是 因为 历史 原因 ， 但 是 在 写 代 
码 时 它 可 能 产生 问题 ， 例 如 ， 交 换 给 函数 如 outb 的 参数 可 能 会 有 麻烦 ; 如果 有 一 个 


port t 类 型 ， 编 译 器 会 发 现 这 个 类 型 . 


11. 4， 其 他 移植 性 问题 


除了 数据 类 型 ， 当 编写 一 个 驱动 时 有 几 个 其 他 的 软件 问题 要 记 住 ， 如 果 你 想 在 Linux 平 
台 间 可 移植 . 






























































一 个 通常 的 规则 是 怀疑 显 式 的 常量 值 ， 常 常 通过 使 用 预 处 理 宏 ， 代 码 已 被 参数 化 ， 这 一 节 
列 出 了 最 重要 的 可 移植 性 问题 ， 无论 何 时 你 遇 到 已 被 参数 化 的 值 ， 你 可 以 在 头 文件 中 以 及 
在 随 官方 内 核发 布 的 设备 驱动 中 找到 提示 . 


11. 4. 1 时 间 间 隔 


当 涉 及 时 间 间 隔 ， 不 要 假定 每 秒 有 1000 个 咬 叶 .尽管 当前 对 i386 体系 是 真实 的 ， 不 是 
每 个 Linux 平台 都 以 这 个 速度 运行 ， 对 于 x86 如 果 你 使 用 HZ 值 (如 同 某 些 人 做 的 那样 )， 
这 个 假设 可 能 是 错 的 ， 并 且 没 人 知道 将 来 内 核 会 发 生 什 么 无论 何 时 你 使 用 吐 咪 来 计算 时 
间 间 隔 ， 使 用 HZ (C 每 秒 的 定时 器 中 断 数 ) 来 标定 你 的 时 间 . 例如 ， 检 查 一 个 半 秒 的 超 

时 ， 用 HZ/2 和 逝去 时 间 比 较 ， 更 普遍 地 ，msec 毫秒 对 应 地 咬 蚊 数 一 直 是 msec*HZ/1000. 















































11. 4. 2. 页 大 小 








当 使 用 内 存 时 ， 记 住 一 个 内 存 页 是 PAGE SIZE 字 节 ， 不 是 4KB. 假定 页 大 小 是 4KB 并 且 
人 硬 编码 这 个 值 是 一 个 PC 程序 员 常 见 的 错误 ， 相 反 ， 被 支持 的 平台 显示 页 大 小 从 4 KB 到 
64 KB， 并 且 有 时 它们 在 相同 平台 上 的 不 同 的 实现 上 不 同 ， 相 关 的 宏 定义 是 PAGE SIZE 和 
PAGE SHIT， 后 者 包含 将 一 个 地 址 移 位 来 获得 它 的 页 号 的 位 数 .， 对 于 AKB 或 者 更 大 的 页 这 
个 数 当前 是 12 或 者 更 大 .， 宏 在 《asm/page.h> 中 定义 ; 用 户 空间 程序 可 以 使 用 
getpagesize 库 函 数 ， 如 果 它 们 需要 这 个 信息 . 




















让 我 们 看 一 下 非 一 般 的 情况 .如 果 一 个 驱动 需要 16 KB 来 暂 存 数据 ， 它 不 应 当 指 定 一 个 
2 的 指数 给 get free pages. 你 需要 一 个 可 移植 解决 方法 .这样 的 解决 方法 ， 斑 运 的 是 ， 
已 经 由 内 核 开 发 者 写 好 并 且 称 为 get order: 












































#include <asm/page. h> 
int order = get order(16#1024) ; 
buf = get free pages (GFP KERNEL, order); 


W, get order 的 参数 必须 是 2 Hym. 

11.4.3. E 

小 心 不 要 假设 字 节 序 . PC 存储 多 字 节 值 是 低 字 节 为 先 ( 小 端 为 先 ， 因 此 是 小 端 ) ， 一 些 高 
级 的 平台 以 另 一 种 方式 (大 端 ) 工作 .任何 可 能 的 时 候 ， 你 的 代码 应 当 这 样 来 编写 ， 它 不 在 


乎 它 操作 的 数据 的 字 节 序 ， 但 是 ， 有 时 候 一 个 驱动 需要 使 用 单个 字 节 建立 一 个 整 型 数 或 者 
相反 ， 或 者 它 必 须 与 一 个 要 求 一 个 特定 顺序 的 设备 通讯 
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包含 文件 “asm/byteorder.h> 定义 了 或 者 ”BIG ENDIAN 或 者 LITTLE ENDIAN， 依 赖 
处 理 器 的 字 节 序 ， 当 处 理 字 节 序 问题 时 ， 你 可 能 编码 一 堆 Sifdef —LITTTLE ENDIAN 条 
件 语句 ， 但 是 有 一 个 更 好 的 方法 . Linux 内 核定 义 了 一 套 宏 定义 来 处 理 之 间 的 转换 ， 在 处 
理 器 字 节 序 和 你 需要 以 特定 字 节 序 存储 和 加 载 的 数据 之 间 ， 例 如 : 


















































u32 cpu to le32 (u32); 
u32 1e32 to cpu (u32); 





这 2 个 宏 定义 转换 一 个 值 ， 从 无 论 CPU 使 用 的 什么 到 一 个 无 符号 的 ， 小 端 ，32 位 数 ， 
并 且 转 换 回 ， 它们 不 管 你 的 CPU 是 小 端 还 是 大 端 ， 不 管 它 是 不 是 32- 位 处 理 器 .在 没有 
事情 要 做 的 情况 下 它们 原样 返回 它们 的 参数 ,使 用 这 些 宏 定 义 易 于 编写 可 移植 的 代码 ， 而 
不 必 使 用 大 量 的 条 件 编译 建造 . 


















































有 很 多 类 似 的 函数 ; 你 可 以 在 《linux/byteorder/big endian. h> 和 
«linux/byteorder/little endian.h> 中 见 到 完整 列表 ， 一 会 儿 之 后 ， 这 个 模式 不 难 遵循 . 
be64 to cpu 转换 一 个 无 符号 的 ， 大 端 ，64- 位 值 到 一 个 内 部 CPU 表示 . lel6 to cpus, 
相反 ， 处 理 有 符号 的 ， 小 端 ，16 位 数 ， 当 处 理 指 针 时 ， 你 也 会 使 用 如 cpu_to_le32p， 它 
使 用 指向 一 个 值 的 指针 来 转换 ， 而 不 是 这 个 值 自 身 ， 剩 下 的 看 包含 文件 . 


11.4. 4， 数 据 对 齐 


编写 可 移植 代码 而 值得 考虑 的 最 后 一 个 问题 是 如 何 存 取 不 对 齐 的 数据 一 例如 ， 如 何 读 取 
一 个 存储 于 一 个 不 是 4 字 节 倍数 的 地 址 的 4 学 节 值 . i386 用 户 常 常 存 取 不 对 齐 数据 项 ， 
但 是 不 是 所 有 的 体系 允许 这 个 .很 多 现代 的 体系 产生 一 个 异常 ， 每 次 程序 试图 不 对 齐 数据 
传送 时 ; 数据 传输 由 有 异常 处 理 来 处 理 ， 带 来 很 大 的 性 能 牺牲 ， 如 果 你 需要 存 取 不 对 齐 的 数 
据 ， 你 应 当 使 用 下 列 宏 : 

































































&include Xasm/unaligned. h> 
get unaligned(ptr); 
put unaligned(val, ptr); 


这 些 宏 是 无 类 型 的 ， 并 且 用 在 每 个 数据 项 ， 不 管 它 是 1 2B, 4B, RE 8 个 字 节 
长 .它们 在 任何 内 核 版 本 中 定义 . 

















关于 对 齐 的 另 一 个 问题 是 跨 平 台 的 数据 结构 移植 性 ， 同 样 的 数据 结构 ( 在 C- 语 言 源 文件 
中 定义 ) 可 能 在 不 同 的 平台 上 不 同 地 编译 .编译 器 根据 各 个 平台 不 同 的 惯例 来 安排 结构 成 
员 对 齐 . 





























为 了 编写 可 以 跨 体系 移动 的 数据 使 用 的 数据 结构 ， 你 应 当 一 直 强 制 自然 的 数据 项 对 齐 ， 加 
上 上 对 一 个 特定 对 齐 方式 的 标准 化 ， 上 自然 对 齐 意味 着 存储 数据 项 在 是 它 的 大 小 的 整数 倍 的 地 
址 上 (例如 ，8-byte 项 在 8 的 整数 倍 的 地 址 上 )， 为 强制 自然 对 齐 在 阻止 编译 器 以 不 希望 
的 方式 安排 成 员 量 的 时 候 ， 你 应 当 使 用 填充 者 成 员 来 避免 在 数据 结构 中 留 下 空洞. 














为 展示 编译 器 如 何 强制 对 齐 ，dataalign 程序 在 源码 的 misc-progs 目录 中 发 布 ， 并 且 一 
个 对 等 的 kdataalign 模块 是 misc-modules 的 一 部 分 ， 这 是 程序 在 几 个 平台 上 的 输出 以 
及 模块 在 SPARC64 的 输出 : 
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arch Align: char short int long ptr long-long u8 ul6 u32 u64 


1386 1 2 4 4 4 4 12 4 4 
1686 1 2 4 4 4 4 1 2 4 

alpha 1 2 4 8 8 8 102 4 8 
armv4l 1 2 4 4 4 4 12 4 4 
ia64 1 2 4 8 8 8 12 4 8 
mips 1 2 4 4 4 8 12 4 8 
ppc 1 2 4 4 4 8 12 4 8 
sparc 1 2 4 4 4 8 12 4 8 
sparc64 1 2 4 4 4 8 12 4 8 
x86 64 1 2 4 8 8 8 12 4 S8 


kernel: arch Align: char short int long ptr long-long u8 ul6 u32 u64 
kernel: sparc64 1 2 4 8 8 8 12 4 8 








有 趣 的 是 注意 不 是 所 有 的 平台 对 齐 64- 位 值 在 64- 位 边界 上 ， 因 此 你 需要 填充 者 成 员 来 强 
制 对 齐 和 保证 可 移植 性 . 


— 



































最 后 ， 要 知道 编译 器 可 能 自己 悄悄 地 插入 填充 到 结构 中 来 保证 每 个 成 员 是 对 齐 的， 为 了 目 
标 处 理 器 的 良好 性 能 ， 如 果 你 定义 一 个 结构 打算 来 匹配 一 个 设备 期 望 的 结构 ， 这 个 自动 的 
填充 可 能 妨碍 你 的 企图 ， 解 决 这 个 问题 的 方法 是 告诉 编译 器 这 个 结构 必须 是 “紧凑 的 ”， 不 
能 增加 填充 者 ， 人 例如， 内核 头 文件 《linux/edd. h> 定义 几 个 与 x86 BIOS 接口 的 数据 结 
构 ， 并 且 它 包含 下 列 的 定义 : 












































struct 
{ 
ul6 id; 
u64 lun; 
ul6 reservedl; 
u32 reserved2; 
j 
. attribute . ((packed)) scsi; 


如 果 没 有 attribute | ((packed)), lun 成 员 可 能 被 在 前 面 添加 2 个 填充 者 字 节 或 者 
6 个 ， 如 果 我 们 在 64- 位 平台 上 编译 这 个 结构 . 


11. 4. 5。 指 针 和 错误 值 


很 多 内 部 内 核 函 数 返 回 一 个 指针 值 给 调用 者 ， 许多 这 些 函 数 也 可 能 失败 ， 大 部 分 情况 ， 失 
败 由 返回 一 个 NULL 指针 值 来 指示 .这 个 技术 是 能 用 的 ， 但 是 它 不 能 通知 问题 的 确切 特性 ， 
一 些 接口 确实 需要 返回 一 个 实际 的 错误 码 以 便于 调用 者 能 够 基于 实际 上 什么 出 错 来 作出 正 
确 的 判断 . 






























































许多 内 核 接口 通过 在 指针 值 中 对 错误 值 编码 来 返回 这 个 信息 .这样 的 信息 必须 小 心 使 用 ， 
因为 它们 的 返回 值 不 能 简单 地 与 NULL 比较 .为 帮助 创建 和 使 用 这 类 接口 ， 一 小 部 分 函数 
己 可 用 ( Æ Xlinux/err. h>). 
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一 个 返回 指针 类 型 的 函数 可 以 返回 一 个 错误 值 ， 使 用 : 





void *ERR PTR(long error); 





这 里 ，error 是 常见 的 负 值 错误 码 ， 调 用 者 可 用 使 用 IS ERR 来 测试 是 否 一 个 返回 的 指针 
是 不 是 一 个 错误 码 : 


long IS ERR(const void *ptr); 








如 果 你 需要 实际 的 错误 码 ， 它 可 能 被 抽取 到 ， 使 用 : 
long PTR ERR(const void *ptr); 


你 应 当 只 对 IS. ERR 返回 一 个 真 值 的 值 使 用 PTR_ERR; 任何 其 他 的 值 是 一 个 有 效 的 指针 . 


11. 5， 链 表 


操作 系统 内 核 ， 如 同 其 他 程序 ， 常 常 需 要 维护 数据 结构 的 列表 ， 有 时 ，Linux 内 核 已 经 同 
时 有 几 个 列表 实现 ， 为 减少 复制 代码 的 数量 ， 内 核 开 发 者 已 经 创建 了 一 个 标准 环形 的 ， 双 
链表 ; 鼓励 需要 操作 列表 的 人 使 用 这 个 设施 . 



































当 使 用 链表 接口 时 ， 你 应 当 一 直 记 住 列 表 函 数 不 做 加 锁 ， 如 果 你 的 驱动 可 能 试图 对 同一 个 
列表 并 发 操作 ， 你 有 责任 实现 一 个 加 锁 方 案 ， 可 选项 ( 破坏 的 列表 结构 ， 数 据 丢 失 ， 内 核 
Hj) 肯定 是 难以 诊断 的 . 











为 使 用 列表 机 制 ， 你 的 驱动 必须 包含 文件 《linux/1ist.h>， 这 个 文件 定义 了 一 个 简单 的 
类 型 list head 结构 : 


struct list head { struct list head *next, *prev; }; 











真实 代码 中 使 用 的 链表 几乎 是 不 变 地 由 几 个 结构 类 型 组 成 ， 个 描述 一 个 链表 中 的 入 口 
项 ， 为 在 你 的 代码 中 使 用 Linux 列表 ， 你 只 需要 寻 入 一 个 list head 在 构成 这 个 链表 的 
结构 里 面 ， 假 设 ， 如 果 你 的 驱动 维护 一 个 列表 ， 它 的 声明 可 能 看 起 来 象 这 样 : 














struct todo struct 
[ 
struct list head list; 
int priority; /* driver specific */ 
/* ... add other driver-specific fields */ 


h 








列表 的 头 常常 是 一 个 独立 的 list head 结构 ， 图 链表 头 数据 结构 显示 了 这 个 简单 的 
struct list head 是 如 何 用 来 维护 一 个 数据 结构 的 列表 的 . 


图 11. 1， 链 表 头 数据 结构 
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Lists in 
« linux/list.h» 


An empty list 


ERR] 





A custom structure 
indudinga list head 





Bfecs ofthelist entry macro 











链表 头 必须 在 使 用 前 用 INIT LIST HEAD 宏 来 初始 化 ， 一 个 “要 做 的 事情 “的 链表 头 可 能 声 
明 并 且 初 始 化 用 : 


struct list head todo list; 

INIT LIST HEAD (&todo list); 

《para>》 可 选 地 ， 链 表 可 在 编译 时 初始 化 :</para> 
LIST HEAD(todo list); 


几 个 使 用 链表 的 函数 定义 在 “linux/list.ph>: 


list add(struct list head *new, struct list head *head); 





在 紧 接 着 链表 head 后 面 增加 新 入 口 项 一 正常 地 在 链表 的 开头 ， 因 此 ， 它 可 用 来 
构建 堆栈 ， 但是， 注意 ，head 不 需要 是 链表 名 义 上 的 头 ; 如 果 你 传递 一 个 

list head 结构 ， 它 在 链表 某 处 的 中 间 ， 新 的 项 紧 靠 在 它 后 面 ， 因 为 Linux 链表 
是 环形 的 ， 链 表 的 头 通 常 和 任何 其 他 的 项 没有 区 别 . 











list add tail(struct list head *new, struct list head *head); 














刚好 在 给 定 链表 头 前 面 增加 一 个 新 入 口 项 一 在 链表 的 尾部 ， 换 句 话说 . 
list add tail 能 够 ， 因 此 ， 用 来 构建 先入 先 出 队列 . 











list del(struct list head *entry); 
list del init(struct list head *entry); 





给 定 的 项 从 队列 中 去 除 . 如 果 入 口 项 可 能 注册 在 另外 的 链表 中 ， 你 应 当 使 用 
list del_init， 它 重新 初始 化 这 个 链表 指针 . 





list move(struct list head *entry, struct list head *head); 
list move tail(struct list head *entry, struct list head *head) ; 
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给 定 的 入 口 项 从 它 当 前 的 链表 里 去 除 并 且 增 加 到 head 的 开始 ， 为 安放 入 口 项 在 新 
链表 的 末尾 ， 使 用 list move tail 代替 . 








list empty(struct list head *head); 





如 果 给 定 链表 是 空 ， 返 回 一 个 非 零 值 . 





list splice(struct list head *list, struct list head *head); 


将 list 紧 接 在 head 之 后 来 连接 2 个 链表 . 

















F 





list head HAR PKPA ERE, E HET E 8 RER 2 
构 ， 它 组 成 链表 作为 一 个 整体 ， 一 个 宏 定义 ，list_entry， 映 财 一 个 list head 结构 指 
针 到 一 个 指向 包含 它 的 结构 的 指针 ， 它 如 下 被 调用 : 











list entry(struct list head *ptr, type of struct, field name); 





这 里 ptr 是 一 个 指向 使 用 的 struct list head 的 指针 ，type of struct 是 包含 ptr 
的 结构 的 类 型 ，field_name 是 结构 中 列表 成 员 的 名 子 . 在 我 们 之 前 的 todo struct 结构 
中 ， 链 表 成 员 称 为 简单 列表 ， 因 此 ， 我 们 应 当 转 变 一 个 列表 入 口 项 为 它 的 包含 结构 ， 使 用 
这 样 一 行 : 











struct todo struct *todo ptr = list entry(listptr, struct todo struct, list); 











list entry 宏 定 义 使 用 了 一 些 习惯 的 东西 但 是 不 难 用 . 











链表 的 遍历 是 容易 的 : 只 要 跟随 prev 和 next 指针 . 作为 一 个 例子 ， 假 设 我 们 想 保 持 
todo struct 项 的 列表 已 降序 的 优先 级 顺序 排列 ， 一 个 函数 来 添加 新 项 应 当 看 来 如 此 : 


void todo add entry(struct todo struct *new) 


{ 
struct list head *ptr; 
struct todo struct *entry; 


for (ptr = todo list.next; ptr !- &todo list; ptr = ptr->next) 
{ 

entry = list_entry (ptr, struct todo_struct, list); 

if (entry->priority《 new->priority) { 


list add tail(&new-^list, ptr); 
return; 
} 
} 


list add tail (&new->list, &todo struct) 
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但 是 ， 作 为 一 个 通用 的 规则 ， 最 好 使 用 一 个 预定 义 的 宏 来 创建 循环 ， 它 遍历 链表 ， 前 一 个 
循环 ， 例 如 ， 可 这 样 编码 : 





void todo add entry(struct todo struct *new) 
{ 

struct list_head *ptr; 

struct todo struct *entry; 


list for each(ptr, &todo list) 

{ 
entry = list_entry (ptr, struct todo_struct, list); 
if (entry->priority《 new->priority) { 


list add tail(&new-^list, ptr); 
return; 
} 
} 
list add tail (&new->list, &todo struct) 


} 





使 用 提供 的 宏 帮 助 避 免 简单 的 编程 错误 ; 宏 的 开发 者 也 已 做 了 些 努 力 来 保证 它们 进行 正常 
存在 儿 个 变 体 : 


list for each(struct list head *cursor, struct list head *list) 





这 个 宏 创 建 一 个 for 循环 ， 执 行 一 次 ，cursor 指向 链表 中 的 每 个 连续 的 入 口 项 . 
小 心 改 变 列 表 在 遍历 它 时 . 


list for each prev(struct list head *cursor, struct list head *list) 
这 个 版 本 后 向 遍历 链表 ， 


list for each safe(struct list head *cursor, struct list head *next, struct 
list head *list) 


如 果 你 的 循环 可 能 删除 列表 中 的 项 ， 使 用 这 个 版 本 ， 它 简单 的 存储 列表 next 中 下 
一 个 项 ， 在 循环 的 开始 ， 因 此 如 果 cursor 指向 的 入 口 项 被 删除 ， 它 不 会 被 搞 乱 . 


list for each entry(type *cursor, struct list head *list, member) 
list for each entry safe(type *cursor, type *next, struct list head *list, 





member) 








这 些 宏 定 义 减 轻 了 对 一 个 包含 给 定 结构 类 型 的 列表 的 处 理 . XX, cursor 是 一 个 
指向 包含 数据 类 型 的 指针 ，member 是 包含 结构 中 list head 结构 的 名 子 . 有 了 这 
ER, KADAI list entry 调用 在 循环 里 了 . 
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如 果 你 查看 《linux/1ist.h> 里 面 ， 你 看 到 有 一 些 附 加 的 声明 .hlist 类 型 是 一 个 有 一 个 
单独 的 ， 单 指针 列表 头 类 型 的 双向 链表 ; 它 常用 作 创建 哈 希 表 和 类 型 结构 .还 有 宏 用 来 遍 
py 2 种 列表 类 型 ， 打 算 作 使 用 读 取 -拷贝 -更 新 机 制 ( 在 第 5 章 的 ” 读 取 -拷贝 -更 新 ” 
节 中 描述 )， 这些 原 语 在 设备 驱动 中 不 可 能 有 用 ; 看 头 文件 如 果 你 愿意 知道 更 多 信息 关于 
它们 是 如 何 工 作 的 . 


11.6. 快速 参考 


下 列 符号 在 本 章 中 介绍 了 : 





























Sinclude <linux/types. h> 
typedef u8; 
typedef ul6; 
typedef u32; 
typedef u64; 


保证 是 8- 位 ，16- 位 ，32- 位 和 64- 位 无 符号 整 型 值 的 类 型 ， 对 等 的 有 符号 类 型 也 
存在 .在 用 户 空间 ， 你 可 用 _u8，_ul16， 等 等 来 引用 这 些 类 型 . 





#include <asm/page. h> 
PAGE SIZE 
PAGE SHIFT 





25 2 BU V IR E XURSEDUIB ES DL ACRES TEC C 对 于 4 KB 页 是 12，8 KB 是 
13 ) 的 符号 . 





#include Xasm/byteorder. h> 
— LITTLE ENDIAN 
. BIG ENDIAN 





这 2 个 符号 只 有 一 个 定义 ， 依 赖 体系 . 


#include Xasm/byteorder. h> 
u32 cpu to le32 (u32); 
u32 le32_to cpu (u32); 


























在 已 知 字 节 序 和 处 理 器 字 节 序 之 间 转 换 的 函数 ， 有 超过 60 个 这 样 的 函数 : 在 
include/linux/byteorder/ 中 的 各 种 文件 有 完整 的 列表 和 它们 以 何 种 方式 定义 . 





#include <asm/unaligned. h> 
get unaligned(ptr); 
put unaligned(val, ptr); 














一 些 体 系 需 要 使 用 这 些 宏 保护 不 对 齐 的 数据 存 取 ， 这 些 宏 定 义 扩展 成 通常 的 指针 解 
引用 ， 为 那些 允许 你 存 取 不 对 章 数据 的 体系 . 





Hinclude <linux/err. h> 
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void *ERR_PTR (long error); 
long PTR ERR(const void *ptr); 
long IS ERR(const void *ptr); 


允许 错误 码 由 返回 指针 值 的 函数 返回 . 


Sinclude Xlinux/list. h> 

list add(struct list head *new, struct list head *head); 

list add tail(struct list head *new, struct list head *head); 
list del(struct list head *entry); 

list del init(struct list head *entry); 

list empty (struct list head *khead); 

list entry(entry, type, member); 

list move(struct list head *entry, struct list head *head); 

list move tail(struct list head *entry, struct list head *head); 
list splice(struct list head *list, struct list head *khead); 


操作 环形 ， 双 向 链表 的 函数 . 


list for each(struct list head *cursor, struct list head *list) 

list for each prev(struct list head *cursor, struct list head *list) 

list for each safe(struct list head *cursor, struct list head *next, struct 
list head *list) 

list for each entry(type *cursor, struct list head *list, member) 

list for each entry safe(type *cursor, type *next struct list head *list, 





member) 





方便 的 宏 定 义 ， 用 在 过 历 链表 上 . 
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第 12 3€ PCI 驱动 


虽然 第 9 章 介 绍 了 硬件 控制 的 最 低层 ， 本 章 提供 了 总 线 结构 的 高 级 一 些 的 概括 ， 一 个 总 
线 由 电路 接口 和 一 个 编程 接口 组 成 ， 在 本 章 ， 我 们 涉及 编程 接口 . 





























本 章 涉 及 许多 总 线 结构 ， 但 是 ， 主 要 的 焦点 在 存 取 PCI 外 设 的 内 核 函 数 ， 因 为 如 今 PCI 
总 线 是 在 昌 面 计算 机 和 更 大 的 计算 机 上 最 普遍 使 用 的 外 设 总 线 ， 这 个 总 线 是 被 内 核 文 持 得 
最 好 的 .ISA 对 于 电子 爱好 者 仍然 是 普 壳 的， 在 后 面 描述 它 ， 尺 管 它 更 多 的 是 一 个 裸露 金 
必 类 型 的 总 线 ， 并 且 没有 更 多 的 要 讲 的 ， 除 了 在 第 9 章 和 第 10 Rm H. 


12.1. PCI 接口 


尽管 许多 计算 机 用 户 认为 PCI 是 一 种 电路 布线 方法 ， 实 际 上 它 是 一 套 完整 的 规格 ， 定 义 
了 一 个 计算 机 的 不 同 部 分 应 当 如 何 交 互 . 















































PCI 规范 涉及 和 计算 机 接口 相关 的 大 部 分 问题 . 我 们 不 会 在 这 里 涵盖 全 部 ; ER, RI 
主要 关注 一 个 PCI 三 动 如 何 能 找到 它 的 人 硬件 并 获得 对 它 的 存 取 . 在 第 2 章 的 “模块 参数 ” 
一 节 和 第 10 章 的 “自动 探测 IRQ 号 “一 节 讨 论 的 探测 技术 可 被 用 在 PCI 设备 ， 但 是 这 个 
规范 提供 了 一 个 更 适合 探测 的 选择 . 











PCI 体系 被 设计 为 ISA 标准 的 替代 品 ， 有 3 个 主要 目的 : 当 在 计算 机 和 它 的 外 设 之 间 传 
送 数据 时 获得 更 好 的 性 能 ， 尽 可 能 平台 无 关 ， 以 及 简化 添加 和 去 除 系统 的 外 设 . 





PCI 总 线 通 过 使 用 一 个 比 ISA 更 高 的 时 钟 频率 ， 获 得 更 好 的 性 能 ; 它 的 设置 运行 在 25 

或 者 33 MHz ( 它 的 实际 频率 是 系统 时 钟 的 一 个 因数 )， 以 及 66-MHz 甚至 133-MHz 的 实 
现 最 近 也 已 经 被 采用 .但 是 ， 它 配备 有 32- 位 数据 线 ， 并 且 一 个 64- 位 扩展 已 经 被 包含 
在 规范 中 ， 平 台独 立 性 常常 是 一 个 计算 机 总 线 设计 的 目标 ， 并 且 它 是 PCI 的 一 个 特别 重 
要 的 特性 ， 因 为 PC 世界 已 一 直 被 处 理 器 特定 的 接口 标准 占据 ，PCI 当前 广泛 用 在 IA-32， 
Alpha，PowerPC，SPARC64， 和 IA-64 系统 中 ， 以 及 一 些 其 他 的 平台 . 









































但 是 ， 和 驱动 作者 最 相关 的 ， 是 PCI 对 接口 板 的 自动 探测 的 支持 ，PCI 设备 是 无 跳 线 的 
(不 象 大 部 分 的 老式 外 设 ) 并 且 是 在 局 动 时 自动 配置 的 ， 接 着 ， 设 备 驱 动 必 须 能 够 存 取 设 备 
中 的 配置 信息 以 便 能 完成 初始 化 ， 这 不 用 进行 任何 探测 . 
































12.1.1. PCI 寻 址 





每 个 PCI 外 设 有 一 个 总 线 号 ， 一 个 设备 号 ， 一 个 功能 号 标识 .PCI 规范 允许 单个 系统 占 
用 多 达 256 个 总 线 ， 但 是 因为 256 个 总 线 对 许多 大 系统 是 不 够 的 ，Linux 现在 文 持 PCI 
域 ， 每 个 PCI 域 可 以 占用 多 达 256 个 总 线 ， 每 个 总 线 占用 32 个 设备 ， 每 个 设备 可 以 是 
一 个 多 功能 卡 (例如 一 个 声音 设备 ， 带 有 一 个 附加 的 CD-ROM 驱动 ) 有 最 多 8 个 功能 . Bl 
此 ， 每 个 功能 可 在 硬件 层次 被 一 个 16- 位 地 址 或 者 key ， 标 识 ，Linux 的 设备 驱动 编写 
者 ， 然 而 ， 不 需要 处 理 这 些 二 进 制 地 址 ， 因 为 它们 使 用 一 个 特定 的 数据 结构 ， 称 为 
pci_dev， 来 在 设备 上 操作 . 
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Er 
大 部 分 近期 的 工作 站 至 少 有 2 个 PCI 总 线 ， 在 单个 系统 插入 多 于 1 个 总 线 要 通过 桥 实 
现 ， 桥 是 特殊 用 途 的 PCI 外 设 ， 它 的 工作 是 连接 2 个 总 线 . 一 个 PCI 系统 的 全 部 分 布 
是 一 个 树 ， 这 里 每 个 总 线 都 连接 到 一 个 上 层 总 线 ， 直 到 在 树 根 的 总 线 0. CardBus PC- 
card 系统 也 通过 桥 连接 到 PCI 系统 ， 图 一 个 典型 PCI 系统 的 布局 表示 了 一 个 典型 的 
PCI 系统 ， 其 中 各 种 桥 被 突出 表示 了 . 











图 12. 1， 一 个 典型 PCI 系统 的 布局 





POBur0 PCI Bus 1 


RAM CPU 











和 PCI 外 设 相关 的 16- 位 硬件 地 址 ， 尽 管 大 部 分 隐藏 在 struct pci dev 结构 中 ， 仍 然 
是 可 偶尔 见 到 ， 特 别 是 当 使 用 设备 列表 ， 一 个 这 样 的 情形 是 lspci 的 输出 ( pciutils 的 
一 部 分 ， 在 大 部 分 发 布 中 都 有 ) 和 在 /proc/pci 和 /porc/bus/pci 中 的 信息 排 布 .PCI 
设备 的 sysfs 表示 也 显示 了 这 种 寻 址 方案 ， 还 有 PCI 域 信息 .，“ 当 显示 硬件 地 址 时 ， 它 
可 被 显示 为 2 个 值 ( 一 个 8- 位 总 线 号 和 一 个 8- 位 设备 和 功能 号 )， 作 为 3 个 值 ( bus, 
device， 和 function)， 或 者 作为 4 个 值 (domain，bus，device， 和 function); 所 有 
的 值 常常 用 16 进 制 显示 . 






































ffl, /proc/bus/pci/devices 使 用 一 个 单个 16- 位 字段 (来 便于 分 析 和 排序 )， 而 
/proc/bus/busnumber 划分 地 址 为 3 个 字段 . 下 面 内 容 显示 了 这 些 地 址 如 何 显示 ， 只 显 
示 了 输出 行 的 开始 : 








$ lspci | cut -d: -fl-3 
0000:00:00. 0 Host bridge 


0000:00:0f 
0000:00:10. 


IDE interface 
Ethernet controller 


0000:00:00. 1 RAM memory 
0000:00:00. 2 RAM memory 
0000:00:02. 0 USB Controller 
0000:00:04. 0 Multimedia audio controller 
0000:00:06. 0 Bridge 
0000:00:07.0 ISA bridge 
0000:00:09. 0 USB Controller 
0000:00:09. 1 USB Controller 
0000:00:09. 2 USB Controller 
0000:00:0c. 0 CardBus bridge 

0 

0 
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0000:00:12. 0 Network controller 
0000:00:13.0 FireWire (IEEE 1394) 
0000:00:14. 0 VGA compatible controller 
$ cat /proc/bus/pci/devices | cut -f1 


0000 
0001 
0002 
0010 
0020 
0030 
0038 
0048 
0049 
004a 
0060 
0078 
0080 
0090 
0098 
00a0 


$ tree /sys/bus/pci/devices/ 


/ sys/bus/pci/devices/ 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
— 0000: 
^— 0000: 





00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 


00. 
00. 
00. 
02. 
04. 
06. 
0T. 
09. 
09. 
09. 
0c. 
Of. 
10. 
12. 
13. 
14. 


0 


mm 


Ey EE EY 


=A ka 


SMS E a E a MIL EM S 


a PLN E E S AP ELE 





. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pc 
. /devices/pci0000: 
. /devices/pc 
. /devices/pc 
. /devices/pci0000: 
. /devices/pc 
. /devices/pc 
. /devices/pc 
. /devices/pc 
. /devices/pc 


10000 


10000: 
10000 


10000 
10000 
10000: 
10000: 
10000: 


00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
:00/0000: 
00/0000: 
00/0000: 
:00/0000: 
00/0000: 
:00/0000: 
:00/0000: 
00/0000: 
00/0000: 
00/0000: 


00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 
00: 


00. 
00. 
00. 
02. 
04. 
06. 
0T. 
09. 
09. 
09. 
0c. 
Of. 
10. 
12. 
13. 
14. 
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所 有 的 3 个 设备 列表 都 以 相同 顺序 排列 ， 因 为 lspei 使 用 /proc 文件 作为 它 的 信息 源 . 
拿 VGA 视频 控制 器 作 一 个 例子 ，0x00a 
(8 位 )， 设 备 (5 位 ) 和 功能 (3 位 ). 


IER 
Ash 思 





是 0000:00:14.0 当 划 分 为 域 (16 位 )， 总 线 














每 个 外 设 板 的 硬件 电路 回应 查询 ， 固 定 在 3 个 地 址 空间 : 内 存 位置 ，I/0 端口 ， 和 配置 


寄存 器 .前 2 个 地 址 空间 





所 有 在 同一 个 PCI 总 线 上 的 设备 共享 ( 即 ， 当 你 存 取 一 个 内 


存 位 置 ， 在 那个 PCI 总 线 上 的 所 有 的 设备 在 同一 时 间 都 看 到 总 线 周 期 )， 配 置 空 间 ， 另 外 





Hy, HD 

















式 寻 址 ,配置 上 只 一 次 一 个 操 








i 模 地 查询 地 址 ， 因 此 它们 从 不 冲突 . 





至 于 驱动 ， 内 存 和 1/0 区 用 通常 的 方法 ， 通 过 inbp，readb， 等 等 来 存 取 . 男 一 方面 ， 配 


置 传输 通过 调用 特殊 的 内 核 函 数 来 存 取 配 置 寄存 器 .考虑 到 中 断 ， 每 个 PCI dü 














REPE 4 个 


中 断 脚 ， 并 且 每 个 设备 功能 可 以 使 用 它们 中 的 一 个 ， 不 必 关 心 这 些 引 脚 如 何 连 入 CPU. 这 
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样 的 连接 是 计算 机 平台 的 责任 并 且 是 在 PCI 总 线 之 外 实现 的 .因为 PCI 规范 要 求 中 断 线 
是 可 共享 的 ， 即 便 一 个 处 理 器 有 有 限 的 IRQ 线 数 ， 例 如 x86， 可 以 驻 有 许多 PCI 接口 板 
( 每 个 有 4 个 中 断 脚 ) . 





























PCI 总 线 的 I/O 空间 使 用 一 个 32- 位 地 址 总 线 ( 产生 了 4 B 的 I/0 端口 )， 而 内 存 空 
间 可 使 用 32- 位 或 者 64- 位 地 址 存 取 . 64- 位 地 址 在 大 部 分 近期 的 平台 上 可 用 . 假设 地 址 
对 每 个 设备 是 唯一 的 ， 但 是 软件 可 能 错误 地 配置 2 个 设备 到 同样 的 地 址 ， 使 得 不 可 能 存 
取 任 何 一 个 .但 是 这 个 问题 不 会 产生 ， 除 非 一 个 驱动 想 玩 弄 不 应 当 触 动 的 寄存 器 .好 消息 
是 每 个 由 接口 板 提供 的 内 存 和 I/0 地 址 区 可 被 重新 映射 ， 通 过 配置 交易 . 那 是 ， 在 系统 
启动 时 固件 初始 化 PCI 硬件 ， 映 射 每 个 区 到 不 同 地 址 来 避免 冲突 . 所 这 些 区 当前 被 映射 到 
的 地 址 可 从 配置 空间 读 出 ， 因 此 Linux 驱动 可 存 取 它 的 设备 而 不 用 探测 ， 在 读 取 了 配置 
寄存 器 后 ， 驱 动 可 安全 地 存 取 它 的 硬件 . 


















































PCI 配置 空间 为 每 个 设备 包含 256 字 节 (除了 PCI Express 设备 ，， 它 每 个 功能 有 4 KB 
地 配置 空间 )， 并 有 旦 配置 寄存 器 的 排 布 是 标准 化 的 .配置 空间 的 4 个 字 节 含有 一 个 唯一 的 
功能 ID， 因 此 驱动 可 标识 它 的 设备 ， 通 过 查找 那个 设备 的 特定 的 ID. 7 总 之 ， 每 个 设备 
板 被 地 理 式 寻 址 来 获取 它 的 配置 寄存 器 ; 这 些 寄存 器 中 的 信息 可 接着 被 用 来 进行 正常 的 
I/0 存 取 ， 不 必 进 一 步 的 地 理 式 寻 址 . 
























































从 这 个 描述 应 当 清 楚 ，PCI 接口 标准 对 比 ISA 主要 的 创新 是 配置 地 址 空间 ， 因此， 除了 
通常 的 驱动 代码 ， 一 个 PCI 驱动 需要 存 取 配 置 空间 的 能 力 ， 为 了 从 冒险 的 探测 任务 中 解 
A Ba. 












































本 章 的 剩余 部 分 ， 我 们 使 用 词语 设备 来 指 一 个 设备 功能 ， 因 为 在 多 功能 板 的 每 个 功能 如 同 
一 个 独立 的 实体 ， 当 我 们 引用 一 个 设备 ， 我 们 的 意思 是 “ 域 号 ， 总 线 号 ， 设 备 号 ， 和 功能 
号 "的 组 合 . 


12.1.2. 启动 时 间 
为 见 到 PCI 如 何 工 作 的 ， 我 们 从 系统 启动 开始 ， 因 为 那 是 设备 被 配置 的 时 候 . 























当 一 个 PCI 设备 上 电 时 ， 硬 件 保持 非 激 活 ， 换 句 话 说 ， 设 备 只 响应 配置 交易 .在 上 电 时 ， 
设备 没有 内 存 并 且 没 有 I/0 端口 被 映射 在 计算 机 的 地 址 空间 ; 每 个 其 他 的 设备 特定 的 特 
性 ， 例 如 中 断 报告 ， 也 被 关闭 . 




















幸运 的 是 ， 每 个 PCI 主板 都 装配 有 识别 PCI 固件 ， 称 为 BIO0S，NVRAM， 或 者 PROM， 依 
赖 平台 。 这 个 固件 提供 对 设备 配置 地 址 空间 的 存 取 ， 通 过 读 和 写 PCI 控制 器 中 的 寄存 器 . 














在 系统 启动 时 ， 固 件 ( 或 者 Linux 内 核 ， 如 果 配 置 成 这 样 ) 和 每 个 PCI 外 设 进行 配置 交易 ， 
为 了 分 配 一 个 安全 的 位 置 给 每 个 它 提供 的 地 址 区 ， 在 驱动 存 取 设备 的 时 候 ， 它 的 内 存 和 
1/0 区 已 经 被 映 财 到 处 理 器 的 地 址 空间 ， 驱动 可 改变 这 个 缺 省 的 分 配 ， 但 是 它 从 不 需要 这 
样 做 . 












































如 同 被 建议 的 一 样 ， 用 户 可 查看 PCI 设备 列表 和 设备 的 配置 寄存 器 ， 通 过 读 
/proc/bus/pcidevices 和 /proc/bus/pci/*/*. 前 者 是 一 个 带 有 (16 进 制 ) 设备 信息 的 文 
本 文件 ， 并 且 后 者 是 二 进 制 文件 来 报告 每 个 设备 的 每 个 配置 寄存 器 的 一 个 快照 ， 每 个 设备 
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一 个 文件 .在 sysfs 目录 树 中 的 单个 的 PCI 设备 目录 可 在 /sys/bus/pci/devices P$R 
到 . 一 个 PCI 设备 目录 包含 许多 不 同 的 文件 : 


$ tree /sys/bus/pci/devices/0000:00:10. 0 
/ sys/bus/pci/devices/0000:00:10. 0 
— class 
— config 
— detach state 
— device 
== Jrd 
— power 
'— state 
— resource 
— subsystem device 
— subsystem vendor 
^— vendor 








文件 config 是 一 个 二 进 制 文件 ， 它 允许 原始 的 PCI 配置 信息 从 设备 中 读 出 (就 象 由 
/proc/bus/pci/*/x* 提供 的 一 样 )， 文 件 verndor, subsytem device, 

subsystem vernder， 和 class 都 指 的 是 这 个 PCI 设备 的 特定 值 ( 所 有 的 PCI 设备 都 提 
供 这 个 信息 )， 文件 ira 显示 分 配给 这 个 PCI 设备 的 当前 的 IRQ， 并 且 文 件 resource 
显示 这 个 设备 分 配 的 当前 内 存 资源 . 


12. 1. 3， 配 置 寄存 器 和 初始 化 
本 节 ， 我 们 看 PCI 设备 包含 的 配置 寄存 器 .所 有 的 PCI 设备 都 有 至 少 一 个 256- 字 节 地 


址 空间 .前 64 字 节 是 标准 的 ， 而 剩 下 的 是 依赖 设备 的 ， 图 标准 PCI 配置 寄存 器 显示 了 
设备 独立 的 配置 空间 的 排 布 . 





图 12.2. 标准 PCI 配置 寄存 器 


0x0 0x1 0x2 0x3 Ox4 0x5 0x6 Ox7 0x8 Ox9 (xa Oxb 0c Oxd 0ce üxf 


Vendor | Devie | Comman Status |Revis| — (assCode | Cache |Latency| Header| BIST 
0x00 — qp ID Reg. Reg. | ion Line | Timer | Type 


Base Base Base 
0x10 Address 0 Address 1 


| CardBus Subsytem 


Base Base $u syt 
0x20 Address 4 | Mdress 5 (I$ pointer | Vendor ID Device ID 


Expansion ROM IRQ | IRQ | Mn_Gnt | Max lat 
0x30 Base Address line | Pin 


- Required Register 


-Optional Register 
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如 图 所 示 ， 一 些 PCI 配置 寄存 器 是 要 求 的 ， 一 些 是 可 选 的 ， 每 个 PCI 设备 必须 包含 有 意 
义 的 值 在 被 要 求 的 寄存 器 中 ， 而 可 选 寄存 器 的 内 容 依赖 外 设 的 实际 功能 ， 可 选 的 字段 不 被 
使 用 ， 除 非 被 要 求 的 字段 的 内 容 指 出 它们 是 有 效 的 . 因此 ， 被 要 求 的 字段 声称 板 的 功能 ， 
包括 其 他 的 字段 是 否 可 用 . 

















注意 PCI 寄存 器 一 直 是 小 端 模式 ， 尽 管 标准 被 设计 为 独立 于 体系 ，PCI 设计 者 有 时 露出 
一 些 倾向 PC 环境 驱动 编写 者 应 当 小 心 处 理 字 节 序 ， 当 存 取 多 字 节 配置 寄存 器 时 ; 在 
PC 上 使 用 的 代码 可 能 在 其 他 平台 上 不 工作 .Linux 开发 者 已 经 处 理 了 这 个 字 节 序 问 题 ( 见 
下 一 节 ,，“ 存 取 配 置 空间 )， 但 是 这 个 问题 必须 记 住 ， 如 果 你 曾 需 要 转换 数据 从 主机 序 到 
PCI 序 ， 或 者 反之 ， 你 可 求助 在 《asm/byteorder. h> 中 定义 的 函数 ， 在 第 11 章 介绍 ， 
知道 PCI 字 节 序 是 小 端 . 






































描述 所 有 的 配置 项 超出 了 本 书 的 范围 ， 和 常常 地 ， 随 每 个 设备 发 布 的 技术 文档 描述 被 文 持 的 
寄存 器 . 我们 感 兴趣 的 是 一 个 驱动 如 何 能 知道 它 的 设备 以 及 它 如 何 能 存 取 设备 的 配置 空间 . 


























3 个 或 者 4 个 PCI 寄存 器 标识 一 个 设备 : verdorID，deviceID， 和 class 是 3 个 常常 
用 到 的 .每 个 PCI 制造 商 分 配 正确 的 值 给 这 些 只 读 寄存 器 ， 并 且 了 驱动 可 使 用 它们 来 查找 
设备 ， 另外， 字段 subsystem verdorID 和 subsystem devicelD 有 时 被 供应 商 设 置 来 进 
一 步 区 分 类 似 的 设备 . 














我 们 看 这 些 寄存 器 的 细节 : 
vendorID 


这 个 16- 位 寄存 器 标识 一 个 硬件 制造 商 ， 例 如 ， 每 个 Intel 设备 都 标 有 相同 的 供 
应 商号 ，0x8086.， 这 样 的 号 有 一 个 全 球 的 注册 ， 由 PCI 特别 利益 体 所 维护 ， 并 且 
供应 商 必须 申请 有 一 个 唯一 的 分 配给 它们 的 号 . 





deviceID 














这 是 另 一 个 16- 位 寄存 器 ， 由 供应 商 选择 ; 对 于 这 个 设备 ID 没有 要 求 官方 的 注 
册 ， 这 个 ID 常常 和 供应 商 ID 成 对 出 现 来 组 成 一 个 唯一 的 32- 位 标识 符 给 一 个 
硬件 设备 ， 我 们 使 用 词语 “签名 “来 指 代 供应 商 和 设备 ID 对 ， 一 个 设备 驱动 常常 依 
靠 签名 来 标识 它 的 设备 ; 你 可 在 硬件 手册 中 找到 对 于 目标 设备 要 寻找 的 值 


























class 





每 个 外 设 都 属于 一 个 类 . 类 寄存 器 是 一 个 16- 位 值 ， 它 的 高 8 位 标识 “ 基 类 (或 
者 群 )， 例 如 ，“ethernet”“ 和 “token ring 是 2 个 类 都 属于 “network“ 群 ， 而 
“serial” 和 “parallel” 属 于 “communication” 群 .一 些 驱 动 可 支持 儿 个 类 似 的 设备 ， 
每 个 都 有 一 个 不 同 的 签名 但 是 都 属于 同样 的 类 ; 这 些 驱 动 可 依赖 类 寄存 器 标识 它们 
的 外 设 ， 就 象 后 面 所 示 ，. 

















subsystem vendorID 
subsystem deviceID 
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这 些 字 段 可 用 来 进一步 标识 一 个 设备 ， 如 果 芯 片 对 于 本 地 总 线 是 一 个 通用 接口 芯片 ， 
它 常 常 被 用 在 几 个 完全 不 同 的 地 方 ， 并 且 三 动 必 须 标识 出 它 在 与 之 通话 的 实际 设备 . 
子 系统 标志 用 作 此 目的 . 














使 用 这 些 不 同 的 标识 符 ， 一 个 PCI 驱动 可 告知 内 核 它 支持 什么 类 型 的 设备 .struct 
pci device id 结构 被 用 来 定义 一 个 驱动 支持 的 不 同类 型 PCI 设备 的 列表 ， 这 个 结构 包 
含 不 同 的 成 员 : 








| u32 vendor; 
. u32 device; 








这 些 指定 一 个 设备 的 PCI 供应 商 和 设备 ID， 如 果 驱 动 可 处 理 任何 供应 商 或 者 设备 
ID， 值 PCI ANY ID 应 当 用 作 这 些 成 员 上 . 





. u32 subvendor; 
. u32 subdevice; 





这 些 指 定 一 个 设备 的 PCI 子 系统 供应 商 和 子 系统 设备 ID， 如 果 驱 动 可 人 处理 任何 类 
型 的 子 系统 ID， 值 PCI ANY ID 应 当 用 作 这 些 成 员 上 . 





. u32 class; 
. u32 class mask; 


这 2 个 值 允许 驱动 来 指定 它 支持 一 类 PCI 类 设备 .不同 的 PCI 设备 类 ( 一 个 
VAG 控制 器 是 一 个 例子 ) 在 PCI 规范 里 被 描述 ， 如 果 一 个 驱动 可 处 理 任何 子 系统 
ID， 值 PCI ANY ID 应当 用 作 这 些 字段 . 








kernel ulong t driver data; 








这 个 值 不 用 来 匹配 一 个 设备 ， 但 是 用 来 持 有 信息 ，PCI 驱动 可 用 来 区 分 不 同 的 设备 ， 
如 果 它 想 这 样 . 








有 2 个 帮助 宏 定 义 应 当 被 用 来 初始 化 一 个 struct pci device id 结构 : 





PCI DEVICE(vendor, device) 





这 个 创建 一 个 struct pci device id ， 它 只 匹配 特定 的 供应 商 和 设备 ID. XX 
宏 设 置 这 个 结构 的 子供 应 商 和 子 设备 成 员 为 PCI ANY ID. 





PCI DEVICE CLASS(device class, device class mask) 














这 个 创建 一 个 struct pci device id， 它 匹配 一 个 特定 的 PCI 类 . 











一 个 使 用 这 些 宏 来 定义 一 个 驱动 支持 的 设备 类 型 的 例子 ， 在 下 面 的 内 核 文件 中 可 找到 : 


drivers/usb/host/ehci-hcd. c: 
static const struct pci device id pci ids[] = { ( 
/* handle any USB 2.0 EHCI controller */ 
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PCI DEVICE CLASS(((PCI CLASS SERIAL USB << 8) | 0x20), ^0), 
.driver data = (unsigned long) &ehci driver, 


ls 


{ /* end: all zeroes */ ] 





3 
drivers/i2c/busses/i2c-1810. c: 


static struct pci device id i810 ids[] = { 

{ PCI DEVICE(PCI VENDOR ID INTEL, PCI DEVICE ID INTEL 82810 IG1) j, 
{ PCI DEVICE(PCI VENDOR ID INTEL, PCI DEVICE ID INTEL 82810 IG3) j, 
{ PCI DEVICE(PCI VENDOR ID INTEL, PCI DEVICE ID INTEL 82810E IG) j, 
{ PCI DEVICE(PCI VENDOR ID INTEL, PCI DEVICE ID INTEL 82815 CGC) j, 
{ 
{ 0 














PCI DEVICE(PCI VENDOR ID INTEL, PCI DEVICE ID INTEL 82845G IG) }, 
y Js 





js 

















这 些 例子 创建 一 个 struct pci device id 结构 的 列表 ， 列 表 中 最 后 一 个 是 被 设置 为 全 零 
的 的 空 结构 ， 这 个 ID 的 数组 用 在 struct pci driver (下 面 讲述 )， 并 且 它 还 用 来 告诉 
用 户 空 间 这 个 特定 的 驱动 支持 哪个 设备 . 








12.1.4. MODULEDEVICETABLE 4 








这 个 pci device id 结构 需要 被 输出 到 用 户 空间 ， 来 允许 热 插 拔 和 模块 加 载 系统 知道 什 
么 模块 使 用 什么 硬件 设备 ， 宏 MODULE DEVICE TABLE 完成 这 个 ， 例 如 : 








MODULE DEVICE TABLE(pci, i810 ids); 








个 语句 创建 一 个 局 部 变量 称 为 mod pci device table， 它 指向 struct 
pci device id 的 列表 ， 稍 后 在 内 核 建立 过 程 中 ，depmod 程序 在 所 有 的 模块 中 寻找 
. mod pci device table. 如 果 找 到 这 个 符号 ， 它 将 数据 拉 出 模块 并 且 添 加 到 文件 
/lib/modules/KERNEL VERSION/modules.pcimap. 在 depmod 完成 后 ， 所 有 的 被 内 核 中 的 
模块 支持 的 PCI 设备 被 列 出 ， 带 有 它们 的 模块 名 子 ， 在 那个 文件 中 ， 当 内 核 告 知 热 插 拔 
系统 有 新 的 PCI 设备 已 找到 ， 热 插 拔 系统 使 用 moudles.pcimap 文件 来 找到 正确 的 驱动 
来 加 载 . 

















12. 1. 5， 注 册 一 个 PCI 驱动 


为 了 被 正确 注册 到 内 核 ， 所 有 的 PCI 驱动 必须 创建 的 主 结构 是 struct pci driver 结构 . 
这 个 结构 包含 许多 函数 回调 和 变量 ， 来 描述 PCI 驱动 给 PCI 核心 .这 里 是 这 个 结构 的 一 
个 PCI 驱动 需要 知道 的 成 员 : 


























const char *name; 


JKAHJAA- Y. 它 必 须 是 唯一 的 ， 在 内 核 中 所 有 PCI 驱动 里 面 ， 通常 被 设置 为 和 了 驱 
动 模块 名 子 相 同 的 名 子 . CERE sysfs 中 在 /sys/bus/pci/drivers/ F, H3% 
动 在 内 核 时 . 








const struct pci device id *id table; 
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指向 struct pci device id 表 的 指针 ， 在 本 章 后 面 描述 它 . 














int Ckprobe) (struct pci dev *dev, const struct pci device id *id); 


指向 PCI 驱动 中 probe 函数 的 指针 .这 个 函数 被 PCI 核心 调用 ， 当 它 有 一 个 它 

认为 这 个 驱动 想 探 制 的 struct pei dev 时. 一 个 指向 struct pci device id 的 
指针 ，PCI 核心 用 来 做 这 个 决定 的 ， 也 被 传递 给 这 个 函数 .如 果 这 个 PCI 驱动 需 
要 这 个 传递 给 它 的 struct pci_dev， 它 应 当 正 确 初始 化 这 个 设备 并 且 返 回 0。 如 

果 这 个 驱动 不 想 拥 有 这 个 设备 ， 或 者 产生 一 个 错误 ， 它 应 当 返 回 一 个 负 的 错误 值 . 

关于 这 个 函数 的 更 多 的 细节 在 本 章 后 面 . 








void Ckremove) (struct pci dev *dev); 


指向 PCI 核心 在 struct pci dev 被 从 系统 中 去 除 时 调用 的 函数 的 指针 ， 或 者 当 
PCI 三 动 被 从 内 核 中 仓 载 时 ， 关 于 这 个 函数 的 更 多 的 细节 在 本 章 后 面 ， 


int (ksuspend) (struct pci dev *dev, u32 state); 


当 struct pci dev 被 挂 起 时 PCI 核心 调用 的 函数 的 指针 . 挂 起 状态 在 state AE 
量 里 传递 . 这 个 函数 是 可 选 的 ; 一 个 驱动 不 必 提 供 它 . 


Im 





int Ckresume) (struct pci dev *dev); 


当 pei dev 被 恢复 时 PCI 核心 调用 的 函数 的 指针 ， 它 一 直 被 调用 在 调用 挂 起 之 后 . 
这 个 函数 时 可 选 的 ;一 个 驱动 不 必 提 供 它 . 

















总 之 ， 为 创建 一 个 正确 的 struct pci driver 结构 ， 只 有 4 个 字段 需要 被 初始 化 : 








static struct pci driver pci driver = { 
.name = ^pci skel”, 

.id table - ids, 

.probe = probe, 

.remove = remove, 


} ; 


为 注册 struct pci driver 到 PCI 核心 ， 用 一 个 带 有 指向 struct pci driver 的 指针 
调用 pci register driver. 传统 上 这 在 PCI 驱动 的 模块 初始 化 代码 中 完成 : 


static int init pci skel init(void) 
{ 
return pci register driver(&pci driver); 


j 








W, pci register driver 函数 要 么 返回 一 个 负 的 错误 但 ， 要 么 是 0 当 所 有 都 成 功 注 
册 ， 它 不 返回 绑 定 到 驱动 上 的 设备 号 , 或 者 一 个 错误 码 如 果 没 有 设备 被 绑 定 到 驱动 上 ， 这 
是 自 2.6 发 布 之 前 的 内 核 的 一 个 改变 ， 并 且 是 因为 下 列 的 情况 而 来 的 : 
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。 在 支持 PCI 热 插 拔 的 系统 上 ， 或 者 CardBus 系统 ， 一 个 PCI 设备 可 在 任何 时 间 
点 出 现 或 消失 ， 如 果 驱 动 可 在 设备 出 现 前 被 加 载 是 有 帮助 的 ， 可 以 减少 用 来 初始 化 
一 个 设备 的 时 间 . 

。 2.6 内 核 允许 新 PCI ID 被 动态 地 分 配给 一 个 驱动 ， 在 它 被 加 载 之 后 . A 
创建 在 sysfs 中 的 所 有 PCI 驱动 目录 的 文件 new id 来 完成 的 ， 如果 一 个 新 设备 
在 被 使 用 而 内 核对 它 还 不 知道 时 ， 这 是 非常 有 用 的 .一 个 用 户 可 写 PCI i 值 到 
new id 文件 ， 并 且 接 着 驱动 绑 定 到 新 设备 ， 如果 一 个 驱动 不 被 允许 加 载 直到 一 个 
设备 在 系统 中 出 现 ， 这 个 接口 将 不 能 工作 . 









































当 PCI HJKzABSEUÉX, struct pci drive 需要 从 内 核 中 注销 ， 这 通过 调用 

pci unregister driver 完成 ， 当 发 生 这 个 调用 ， 任 何 当 前 绑 定 到 这 个 驱动 的 PCI 设备 
都 被 去 除 ， 并 且 这 个 PCI 驱动 的 remove 函数 在 pci unregister driver 函数 返回 之 前 
被 调用 . 





static void exit pci skel exit (void) 
{ 
pci unregister driver(&pci driver); 


} 
12.1.6. 老式 PCI 探测 


在 老 的 内 核 版 本 中 ， 函 数 pci_register_driver， 不 是 一 直 被 PCI 驱动 使 用 . 相反 ， 它 
们 要 么 手工 浏览 系统 中 的 PCI 设备 列表 ， 要 么 它们 将 调用 一 个 能 够 搜索 一 个 特定 PCI 设 
备 的 函数 ， 驱 动 的 浏览 系统 中 PCI 设备 列表 的 能 力 已 被 从 2.6 内 核 中 去 除 ， 为 了 阻止 驱 
动 破 坏 内 核 ， 如 果 它 们 偶尔 修改 PCI 设备 列表 当 一 个 设备 同时 被 去 除 时 . 


























如 果 发 现 一 个 特定 PCI 设备 的 能 力 真正 被 需要 ， 下 列 的 函数 可 用 : 


struct pci dev *pci get device(unsigned int vendor, unsigned int device, 
struct pci dev *from); 


这 个 函数 扫描 当前 系统 中 PCI 设备 的 列表 ， 并 且 如 果 输 入 参数 匹配 指定 的 供应 商 
和 设备 ID， 它 递增 在 struct pci dev 变量 found 中 的 引用 计数 ， 并 且 返 回 它 给 
调用 者 ， 这 阻止 了 这 个 结构 没有 任何 通知 地 消失 ， 并 且 确 保 内 核 不 会 oops. I 
动用 完 由 这 个 函数 返回 的 struct pei dev， 它 必须 调用 函数 pci dev put 来 正确 
地 递减 回 使 用 计数 ， 以 允许 内 核 清 理 设备 如 果 它 被 去 除 . 参数 from 用 同一 个 签名 
来 得 到 多 个 设备 ; 这 个 参数 应 答 指 向 已 被 找到 的 最 后 一 个 设备 ， 以 便 搜 索 能 够 继续 ， 
而 不 必 从 列表 头 开 始 .， 为 找到 第 一 个 设备 ，from 被 指定 为 NULL， 如果 没有 找到 
(进一步 ) 设备 ， 返 回 NULL. 




































































一 个 如 何 正 确 使 用 这 个 函数 的 例子 是 : 





struct pci dev *dev; 
dev = pci get device(PCI VENDOR FO0, PCI DEVICE F00, NULL); 
if (dev) 
f 
/* Use the PCI device */ 
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pci dev put (dev); 


} 
这 个 函数 不 能 从 中 断 上 下 文中 被 调用 ， 如 果 这 样 做 了 ， 一 个 警告 被 打印 到 系统 日 志 . 


struct pci dev *pci get subsys(unsigned int vendor, unsigned int device, 
unsigned int ss vendor, unsigned int ss device, struct pci dev *from); 


这 个 函数 就 象 pci get device 一 样 ， 但 是 它 允 许 当 寻找 设备 时 指定 子 系统 供应 商 
和 子 系统 设备 ID， 这 个 函数 不 能 从 中 断 上 下 文 调用 ， 如 果 是 ， 一 个 警告 被 打印 到 
系统 日 志 . 








struct pci dev *pci get slot(struct pci bus *bus, unsigned int devfn); 


这 个 函数 查找 系统 中 的 PCI 设备 的 列表 ， 在 指定 的 struct pci bus 上 ， 一 个 指 
定 的 PCI 设备 的 设备 和 功能 号 ， 如 果 找 到 一 个 匹配 的 设备 ， 它 的 引用 计数 被 递增 
并 且 返 回 指 向 它 的 一 个 指针 .， 当 调用 者 完成 存 取 struct pci_dev， 它 必须 调用 
pci dev put. 











所 有 指向 函数 都 不 能 从 中 断 上 下 文 调 用 ， 如 果 是 ， 一 个 警告 被 打印 到 系统 日 志 
12.1.7. 使 能 PCI 设备 


在 PCI 驱动 的 探测 函数 中 ， 在 驱动 可 存 取 PCI 设备 的 任何 设备 资源 (1/0 区 或 者 中 断 ) 之 
前 ， 驱 动 必 须 调用 pci enable device MX: 


int pci enable device(struct pci dev *dev); 

















这 个 函数 实际 上 使 能 设备 ， 它 唤醒 设备 以 及 在 某 些 情况 下 也 分 配 它 的 中 断 线 和 1/0 
区 ， 例 如 ， 这 发 生 在 CardBus 设备 上 ( 它 在 驱动 层次 上 已 经 完全 和 PCI 等 同 了 ). 


12. 1. 8， 存 取 配 置 空间 
在 驱动 已 探测 到 设备 后 ， 它 常常 需要 读 或 写 3 个 地 址 空间 : 内 存 ， 端 口 ， 和 配置 .特别 


地 ， 存 取 配 置 空间 对 驱动 是 至 关 重 要 的 ， 因 为 这 是 唯一 的 找到 设备 被 映射 到 内 存 和 1/0 
空间 的 位 置 的 方法 . 






























































因为 微 处 理 器 无 法 直接 存 取 配 置 空间 ， 计 算 机 供应 商 不 得 不 提供 一 个 方法 来 完成 它 ， 为 存 
取 配 置 空间 ，CPU 必须 写 和 读 PCI 控制 器 中 的 寄存 器 ， 但 是 确切 的 实现 是 依赖 于 供应 商 
的 ， 并 且 和 这 个 讨论 无 关 ， 因 为 Linux 提供 了 一 个 标准 接口 来 存 取 配 置 空间 . 

































































对 于 驱动 ， 配 置 空 间 可 通过 8- 位 ，16- 位 ， 或 者 32- 位 数据 传输 来 存 取 .相关 的 函数 原型 
定义 于 《<linux/pci. h>》: 


int pci read config byte(struct pci dev *dev, int where, u8 *val); 
int pci read config word(struct pci dev *dev, int where, ul6 *val); 
int pci read config dword(struct pci dev *dev, int where, u32 **val); 
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从 由 dev 所 标识 出 的 设备 的 配置 空间 读 1 个 ，2 个 或 者 4 个 字 节 .where 参数 
是 从 配置 空间 开始 的 字 节 偏 移 ， 从 配置 空间 取得 的 值 通 过 val 指针 返回 ， 并 且 这 
个 函数 的 返回 值 是 一 个 错误 码 ，word 和 dword 函数 转换 刚刚 读 的 值 从 小 端 到 处 理 
器 的 本 地 字 节 序 ， 因 此 你 不 必 处 理 字 节 序 . 











int pci write config byte(struct pci dev *dev, int where, u8 val); 
int pci write config word(struct pci dev *dev, int where, ul6 val); 
int pci write config dword(struct pci dev *dev, int where, u32 val); 














5 1 个 ，2 个 或 者 4 个 字 节 到 配置 空间 ， 象 通常 一 样 ， 设 备 由 dev 所 标识 ， 并 
且 象 通常 一 样 被 写 的 值 被 传递 ，word 和 dword 函数 转换 这 个 值 到 小 端 ， 在 写 到 外 


设 之 前 . 














所 有 的 之 前 的 函数 被 实现 为 真正 调用 下 列 函 数 的 内 联 函 数 ， 可 自由 使 用 这 些 函 数 代替 上 面 
这 些 ， 如 果 这 个 驱动 在 任何 特别 时 刻 不 能 及 时 存 取 struct pci dev : 


int pci bus read config byte (struct pci bus *bus, unsigned int devfn, int where, u8 *val); 
int pci bus read config word (struct pci bus *bus, unsigned int devfn, int where, ul6 
*val); 
int pci bus read config dword (struct pci bus *bus, unsigned int devfn, int where, u32 
*val); 














就 象 pci read function 一 样 ， 但 是 struct pci bus * 和 devfn 变量 需要 来 代 
$ struct pci dev *. 





int pci bus write config byte (struct pci bus *bus, unsigned int devfn, int where, u8 val); 
int pci bus write config word (struct pci bus *bus, unsigned int devfn, int where, ul6 
val); 








int pci bus write config dword (struct pci bus *bus, unsigned int devfn, int where, u32 
val); 








如 同 pci write 函数， 但 是 struct pci bus * 和 devfn 变量 需要 来 奉 代 
struct pci dev *. 





























使 用 pci read 函数 寻 址 配置 变量 的 最 好 方法 是 通过 定义 在 《linux/pci.h> 中 的 符号 名 . 
例如 ， 下 面 的 小 函数 获取 一 个 设备 的 版 本 ID ， 通 过 在 使 用 pci read config bye 时 传 
递 一 个 符号 名 . 





static unsigned char skel get revision(struct pci dev *dev) 
{ 

u8 revision; 

pci read config byte(dev, PCI REVISION ID, &revision); 
return revision; 


} 
12. 1.9. 存 取 I/O 和 内 存 空间 


一 个 PCI 设备 实现 直至 6 个 I/0 地 址 区 .每 个 区 由 要 么 内 存 要 么 1/0 区 组 成 ， 大 部 分 
设备 实现 它们 的 L/O 寄存 器 在 内 存 区 中 ， 因 为 通常 它 是 一 个 完善 的 方法 (如 同 在 ”1I/0 端 
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口 和 I/0 内 存 “ 一 节 中 解释 的 ， 在 第 9 章 ). 但 是 ， 不 像 正常 的 内 存 ，I/0 寄存 器 不 应 当 
被 CPU 缓存 ， 因 为 每 次 存 取 都 可 能 有 边际 效果 ， 作 为 内 存 区 来 实现 1/0 寄存 器 的 PCI 
设备 ， 通 过 设置 一 个 在 它 的 配置 寄存 器 的 “内 存 可 预 取 ”位 来 标志 出 这 个 不 同 . ” 如 果 这 个 
内 存 区 被 标识 为 可 预 取 的 ，CPU 可 缓存 它 的 内 容 并 且 对 它 做 所 有 类 型 的 优化 ， 非 可 预 取 的 
内 存 存 取 ， 男 一 方面 ， 不 能 被 优化 因为 每 次 存 取 可 能 有 边际 效果 ， 就 象 I/0 端口 ， 映射 
它们 的 寄存 器 到 一 个 内 存 地址 范围 的 外 设 声明 这 个 范围 是 非 可 预 取 的 ， 而 象 在 PCI 板 的 
视频 内 存 的 一 些 是 可 预 取 的 ， 在 本 节 ， 我 们 使 用 词语 “区 “来 指 代 一 个 通用 的 1/0 地 址 空 
间 ， 这 个 空间 要 么 是 内 存 映射 的 ， 要 么 是 端口 映射 的 . 


















































一 个 接口 板报 告 它 的 区 的 大 小 和 当前 位 置 ， 使 用 配置 寄存 器 - 6 个 32 位 寄存 器 ， 在 图 
12-2 中 显示 的 ， 它 们 的 符号 名 是 PCI ADDRESS 0 到 PCI BASE ADDRESS 5. 因为 PCI 定 
义 的 I/O 空间 是 32- 位 空间 ， 使 用 同样 的 配置 接口 给 内 存 和 L/0 是 有 意义 的 ， 如果 设备 
使 用 64- 位 地 址 总 线 ， 它 可 以 在 64- 位 内 存 空 间 声明 各 个 区 ， 使 用 2 个 连续 的 

PCI BASE ADDRESS 寄存 器 给 每 个 多， 低位 在 前 .对 一 个 设备 可 能 提供 32- 位 和 64- 位 区 . 






































内 核 中 ，PCI 设备 的 L/0 区 已 被 集成 到 通用 的 资源 管理 中 ， 由 于 这 个 原因 ， 你 不 必 存 取 
配置 变量 来 知道 你 的 设备 映射 到 内 存 或 者 1/0 衬 间 什么 地 方 . 首选 的 用 来 获得 区 信息 的 
接口 包括 下 列 函数 : 





























unsigned long pci resource start(struct pci dev *dev, int bar); 


这 个 函数 返回 第 一 个 地 址 (内存 地 址 或 者 I/0 端口 号 )， 和 6 个 PCI 1/0 区 中 的 
一 个 相关 联 的 .这 个 区 通过 整数 bar (the base address register), Y&HB/A 0-5 
(&$). 


unsigned long pci resource end(struct pci dev *dev, int bar); 


这 个 函数 返回 最 后 一 个 地 址 ，I/0 区 号 bar 的 一 部 分 ,注意 这 是 最 后 一 个 可 用 地 
址 ， 不 是 这 个 区 后 的 第 一 个 地 址 . 


unsigned long pci resource flags(struct pci dev *dev, int bar); 
这 个 函数 返回 和 这 个 资源 相关 联 的 标识 . 


资源 标识 用 来 定义 单个 资源 的 一 些 特性 . 对 于 和 PCI 1/0 区 相关 联 的 PCI 资源 ， 这 个 信 
县 从 基地 址 寄存 器 中 抽取 出 来 ， 但 是 可 来 自 其 他 地 方 ， 对 于 没有 和 PCI 设备 关联 的 资源 . 

















所 有 的 资源 标志 都 定义 在 “linux/ioport.h>; 最 重要 的 是 : 


IORESOURCE IO 
TORESOURCE MEM 


如 果 被 关联 的 1/0 区 存在 ， 一 个 并 且 只 有 一 个 这 样 的 标志 被 设置 . 


IORESOURCE PREFETCH 
IORESOURCE READONLY 
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这 些 标志 告诉 是 否 一 个 内 存 区 是 可 预 取 的 并 且 / 或 者 写 保 护 的 ， 后 一 个 标志 对 PCI 
资源 从 不 设置 . 





通过 使 用 pci resource ”函数 ， 一 个 设备 驱动 可 完全 忽略 底层 的 PCI 寄存 器 ， 因 为 系统 
已 经 使 用 它们 来 构造 资源 信息 . 








12.1.10. PCI PWr 














对 于 中 断 ，PCI 是 容易 处 理 的 . 在 Linux 启动 时 ， 计 算 机 的 固件 已 经 分 配 一 个 唯一 的 中 
断 号 给 设备 ， pcd d NE up ER RE 

(PCI INTERRUPT LINE), 'C4é— x B9. 这 允许 最 多 256 个 中 断 线 ， 但 是 实际 的 限制 
依赖 于 使 用 CPU. 开动 不 必 费 心 去 检查 中 断 导 ” 因 为 在 PCI INTERRUPT LINE 中 拷 到 的 什 
保证 是 正确 的 一 个 . 






































如 果 设 备 不 支持 中 断 ， 寄 存 器 61 (PCI INTERRUPT PIN) 是 0; 否则 ， 它 是 非 零 的 值 . 但 
是 ， 因 为 驱动 知道 设备 是 否 是 被 中 断 驱 动 的 ， 它 常常 不 需要 读 PCI INTERRUPT PIN. 

















因此 ， 用 来 处 理 中 断 的 PCI 特定 的 代码 需要 读 配置 字 节 来 获得 保存 在 一 个 局 部 变量 中 的 
中 断 号 ， 如 同 在 下 面 代码 中 显示 的 ， 除 此 之 外 ， 在 第 10 章 的 信息 适用 . 














result = pci read config byte(dev, PCI INTERRUPT LINE, &myirq); 
if (result) 
{ 

/* deal with error */ 


} 














本 节 剩 下 的 提供 了 额外 的 信息 给 好 奇 的 读者 ， 但 是 对 编写 程序 不 必要 . 














一 个 PCI 连接 器 有 4 个 中 断 线 ， 并 且 外 设 板 可 使 用 任何 一 个 或 者 多 个 ， 每 个 管 脚 被 独立 
连接 到 主板 的 中 断 控 制 器 中 ， 因 此 中 断 可 被 共享 而 没有 任何 电路 上 的 问题 ， 中 断 控 制 器 接 
着 负责 映射 中 断 线 ( 引 脚 ) 到 处 理 器 的 硬件 ; 这 种 依赖 平台 的 操作 留 给 控制 器 以 便 在 总 线 自 
身上 获得 平台 独立 性 . 









































位 于 PCI INTERRUPT PIN 的 只 读 的 配置 寄存 器 用 来 告知 计算 机 实际 上 使 用 哪个 管 脚 ， 值 
得 记 住 每 个 设备 板 可 有 多 到 8 个 设备 ; 每 个 设备 使 用 一 1 e em 
存 器 中 报告 它 . 在 同一 个 设备 板 上 的 不 同 设备 可 使 用 不 同 的 中 断 脚 或 者 共享 同一 

















PCI INTERRUPT LINE 寄存 器 ， 另 一 方面 ， 是 读 / 写 的 ， 当 启动 计算 机 ， 固 件 扫描 它 的 PCI 
设备 并 为 每 个 设备 设置 寄存 器 固件 中 断 脚 是 如 何 连 接 给 它 的 PCI 槽 位 ， 这 个 值 由 固件 分 
配 ， 因 为 具有 固件 知道 主板 如 何 连接 不 同 的 中 断 脚 到 处 理 器 ， 对 于 设备 驱动 ， 但 是 ， 

PCI INTERRUPT LINE 寄存 器 是 只 读 的 ， 有趣 的 是 ， 近 期 的 Linux 内 核 版 本 在 某 些 情况 下 
可 分 配 中 断 线 ， 不 用 依靠 BIOS. 


12. 1. 11， 硬 件 抽 象 
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我 们 结束 PCI 的 讨论 ， 通 过 快速 看 一 下 系统 如 何 处 理 在 市 场 上 的 多 种 PCI 控制 器 ,这 只 
是 一 个 信息 性 的 小 节 ， 打 算 来 展示 给 好 奇 的 读者 ， 内 核 的 面向 对 象 分 布 如 何 向 下 扩展 到 最 
低层 . 









































用 来 实现 硬件 抽象 的 机 制 是 通 第 的 包含 方法 的 结构 ， 它 是 一 个 很 强 功能 的 技术 ， 只 添加 最 
小 的 解 引用 一 个 指针 的 开销 到 正常 的 函数 调用 开销 当中 .在 PCI 管理 的 情况 下 ， 唯 一 的 
硬件 相关 的 操作 是 读 和 写 配 置 寄 存 器 的 那些 ， 因 为 在 PCI 世界 中 所 有 其 他 的 都 通过 直接 
读 和 写 1/0 和 内 存 地 址 空间 来 完成 ， 并 且 那 些 是 在 CPU 的 直接 控制 之 下 . 









































因此 ， 配 置 寄存 器 存 取 的 相关 的 结构 只 包含 2 个 成 员 : 


struct pci ops 

{ 
int (*read) (struct pci bus *bus, unsigned int devfn, int where, int size, u32 *val); 
int (*write) (struct pci bus *bus, unsigned int devfn, int where, int size, u32 val); 


F; 








这 个 结构 定义 在 《linux/pci.h> FH drivers/pci/pci.c 使 用 ， 这 里 定义 了 实际 的 公 
共 函 数 . 


作用 于 PCI 配置 空间 的 这 2 个 函数 有 更 大 的 开销 ， 比 解 引用 一 个 指针 ; 由 于 代码 的 面向 
对 象 特 性 ， 它 们 使 用 层 芭 指针， 但 是 操作 中 开销 不 是 一 个 问题 ， 这 些 操 作 很 少 被 进行 并 且 
从 不 处 于 速度 -关键 的 路 径 中 . pci_read_config_byte (dev，where，val) 的 实际 实现 ， 例 
如 ， 扩 展 为 : 








dev-»bus-^ops-^read(bus, devfn, where, 8, val); 








系统 中 各 种 PCI 总 线 在 系统 启动 时 被 探测 ， 并 且 此 时 struct pei bus 项 被 创建 并 且 和 
它们 的 特性 所 关联 ， 包 括 ops 字 节 . 








通过 “硬件 操作 “数据 结构 来 实现 硬件 抽象 在 Linux 内 核 中 是 典型 的 ， 一 个 重要 的 例子 是 
struct alpha machine vector 数据 结构 ， 它 定义 于 《asm-alpha/machvec.h> 和 负责 任 
何 可 能 的 跨 不 同 基 于 Alpha 的 计算 机 的 改变 . 








SBus 


2 一 些 体 系 也 显示 PCI 域 信息 在 /proc/pci 和 /proc/bus/pci 文件 . 























实际 上 ， 那 个 配置 不 限定 在 系统 启动 时 ; 可 热 插 拔 的 设备 ， 例 如 ， 在 启动 时 不 可 用 并 且 
相反 在 之 后 出 现 ， 这 里 的 要 点 是 设备 启动 必须 不 改变 1/0 或 者 内 存 区 的 地 址 . 

















2 你 将 在 设备 自己 的 硬件 手册 里 发 现 它 的 ID. 在 文件 pci. ids 中 包含 一 个 列表 ， 这 个 文 
件 是 pciutils 软件 包 和 内 核 代码 的 一 部 分 ; 它 不 假装 是 完整 的 ， 只 是 列 出 最 知名 的 供应 
商 和 设备 ， 这 个 文件 的 内 核 版 本 将 来 不 会 被 包含 在 内 核 系列 中 . 














2 信息 位 于 一 个 基地 址 PCI 寄存 器 的 低位 ， 这 些 位 定义 在 《linux/pci. h>. 
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12.2. 回顾 : ISA 


设计 上 ISA 总 线 非常 老 了 ， 并 且 是 非常 地 低能 ， 但 是 它 仍然 持 有 一 块 插 大 的 控制 设备 的 
市 场 ， 如 果 速 度 不 重要 并 且 你 想 文 持 老 式 主板 ， 一 个 ISA 实现 要 优 于 PCI， 这 个 老 标 准 
的 另外 一 个 好 处 是 如 果 你 是 一 个 电子 爱好 者 ， 你 可 轻易 建立 你 自己 的 ISA 设备 ， 显 然 对 
PCI 是 不 可 能 























另 一 方面 ，ISA 的 许多 缺点 是 它 紧 密 绑 定 在 PC 体系 上 ; 这 个 接口 总 线 有 所 有 的 80286 
处 理 器 的 限制 并 且 给 系统 程序 员 带 来 无 穷 的 痛苦 .ISA 设计 (从 原始 的 IBM PC 继承 下 来 
的 ) 的 另 一 个 大 问题 是 地 理 式 寻 址 的 缺乏 ， 它 已 导致 许多 问题 和 长 时 间 的 拔 下 - 重 置 跳 线 - 
插 上 -测试 循环 来 添加 新 设备 ， 有 趣 的 是 要 注意 甚至 是 最 老 的 Aplle II 计算 机 都 已 经 采 
用 了 地 理 式 寻 址 ， 并 且 它 们 特有 无 跳 线 扩展 板 . 















































不 管 它 的 大 的 缺点 ，ISA 仍然 在 几 个 意 想 不 到 的 地 方 使 用 ， 例 如 ， 用 在 几 个 掌上 电脑 的 
VR41xx 系列 的 MIPS 处 理 器 特有 一 个 ISA 兼容 的 扩展 总 线 ， 就 象 它 看 起 来 那么 奇怪 .在 
ISA 的 这 些 意 想不到 的 用 法 之 后 的 理由 是 一 些 老 式 设备 的 相当 低 的 成 本 ， 例 如 基于 8390 
的 以 太 网 卡 ， 因 此 一 个 带 有 ISA 电路 信号 的 CPU 可 轻易 采用 这 个 糟糕 的 ， 但 是 便宜 的 
PC 设备 . 


12. 2. 1， 硬 件 资源 
一 个 ISA 设备 可 配备 有 1/0 mO, WEAK, MPE. 


$ 















































尽管 x86 处 理 器 支持 64 KB 1/0 端口 内 存 ( 即 ， 处 理 器 有 16 条 地 址 线 )， 一 些 老 PC mE 
件 仅 解 码 最 低 的 10 位 地 址 线 ， 这 限制 可 用 的 地 址 空间 为 1024 个 端口 ， 因 为 任何 在 1 
KB 到 64 KB 范围 内 的 地 址 都 被 只 解码 低地 址 的 任何 设备 错 当 成 一 个 低地 址 ， 一 些 外 设 解 
决 这 个 限制 通过 映射 一 个 端口 到 低 KB 并 且 使 用 高 地 址 线 来 选择 不 同 的 设备 寄存 器 ， 例 如 ， 
一 个 映射 在 0x340 的 设备 可 安全 地 使 用 端口 0x740，0x840， 等 等 . 























如 果 I/0 端口 的 可 用 性 被 限制 ， 内 存 存 取 更 加 麻烦 .一 个 ISA 设备 可 只 使 用 640KB 到 1 
MB 之 间 的 内 存 范围 和 15 MB 和 16MB 之 间 的 范围 给 I/0 寄存 器 和 设备 控制 ， 640-KB 到 
1-MB 范围 被 PC BIOS ，VAG- 兼 容 的 视频 卡 ， 和 各 种 其 他 设备 使 用 ， 给 新 设备 留 下 了 很 少 
空间 ， 另 一 方面 ， 在 15MB 的 内 存 ， 不 被 Linux 直接 支持 ， 并 且 改 造 内 核 来 支持 它 是 浪 

费时 间 . 




















对 ISA 设备 板 第 3 个 可 用 资源 是 中 断 线 ， 一 个 有 限 数目 的 中 断 线 被 连接 到 ISA 总 线 ， 
并 且 它 们 由 所 有 接口 板 共享 .结果 是 ， 如 果 设 备 不 被 正确 配置 ， 它 们 可 能 发 现 它们 自己 在 
使 用 同一 个 中 断 线 . 























尽管 原始 的 TSA 规范 不 允许 在 设备 间 共 享 ， 大 部 分 设备 板 允 许 这 样 。， 氏 在 软件 层次 的 共 
享 在 "中断 共 享 一 节 中 描述 ， 在 第 10 章 




















12.2.2. ISA 编程 


对 于 编程 ， 内 核 中 没有 特别 的 帮助 来 易于 存 取 ISA 设备 ( 象 对 PCI 那样 有 ， 例 如 ). 你 可 
使 用 的 唯一 工具 是 I/0 端口 和 IRQ 线 的 注册 ， 在 10 章 的 ”安装 一 个 中 断 处 理 ” 一 节 . 
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在 本 书 第 一 部 分 所 展示 的 编程 技术 适用 于 ISA 设备 ; 驱动 可 探测 1/0 端口 ， 并 且 中 断 线 
必须 被 自动 探测 ， 使 用 在 10 章 的 ”自动 探测 IRQ 号 “一 节 的 一 个 技术 . 











帮忙 函数 isa readb 和 它 的 朋友 已 经 在 ”使 用 1/0 内 存 ”9 章 中 简单 介绍 了 ， 并 且 对 它 
们 没有 更 多 要 说 的 . 


12. 2. 3， 即 揪 即 用 规范 


一 些 新 ISA 设备 板 遵循 特殊 的 设计 规范 并 且 需 要 一 个 特别 的 初始 化 顺序 ， 对 增加 接口 板 
的 简单 安装 和 配置 的 扩展 ， 这些 板 的 设计 规范 称 为 即 插 即 用 ， 由 一 个 麻烦 的 规则 集 组 成 ， 
来 建立 和 配置 无 跳 线 的 ISA 设备 ，PnP 设备 实现 可 重 分 配 的 I/O K; PC 的 BIOS 负责 
重新 分 配 一 回想 PCI 
























































| 
路 接口 (ISA 总 线 )， 为 此 ， 这 个 规范 定义 了 一 套 设备 独立 的 配置 寄存 器 和 一 个 地 理 式 寻 
接口 板 的 方法 ， 尽 管 物理 总 线 没有 每 块 板子 相连 (地 理 上 ) 一 每 个 ISA 信和 号 Ye 
可 用 的 模 位 . 












































地 理 式 寻 址 通过 分 配 一 个 小 的 整数 ， 称 为 卡 选择 号 (CSN)， 给 计算 机 中 的 每 个 PnP 外 设 . 
每 个 PnP 设备 特有 一 个 唯 这 便 连 线 到 外 设 板 . CSN 分 配 使 用 
唯一 的 序列 号 来 标识 PnP 设备 ， 但 是 CSN 可 被 分 配 只 在 启动 时 ， 它 要 求 BISO 是 知道 
PnP 的 .由 于 这 个 理由 ， 老 式 计算 机 要 求 用 户 来 获得 并 插入 一 个 特别 的 配置 磁盘 ， 即 便 这 
个 设备 是 PnP 的 . 
































遵循 PnP 的 接口 板 在 硬件 级 别 上 是 复杂 的 .它们 比 PCI 板 更 加 精细 并 且 需 要 复杂 的 软件 . 
安装 这 些 设备 有 困难 是 常 有 的 ， 并 且 即 便 安装 顺利 ， 你 仍然 面 对 性 能 限制 和 ISA 总 线 的 
受 限 的 I/O 空间 ， 最 好 在 任何 可 能 时 安装 PCI 设备 ， 并 且 享 受 新 技术 . 























如 果 你 对 PnP 配置 软件 感 兴趣 ， 你 可 浏览 drivers]net/3c509. c， 它 的 探测 函数 处 到 
PnP 设备 . 2.6 内 核 有 许多 工作 在 PnP 设备 支持 信 页 域 ， 因此 许多 灵活 的 接口 和 之 前 的 内 
核发 行 相 比 被 清理 了 . 














E 中 断 共享 的 问题 是 一 个 电子 工程 的 问题 : 如 果 一 个 设备 驱动 信号 线 非 激活 -- 通过 给 一 
MRE 一 中 断 无 法 被 共 至 ， 如 果 ， 另 一 方面 ， 设 备 使 用 一 个 上 拉 电 阻 来 去 激活 逻辑 
电 平 ， 共 享 是 可 能 的 .现在 这 是 正常 的 . 但是， 仍然 有 潜在 的 丢失 中 断 事 件 的 危险 ， 因 为 
ISA 丰 断 是 沿 秀 发 的 而 不 是 电 平 般 发 的 沿 触 发 中 断 易 于 在 硬件 中 实现 ， 但 是 没有 使 它们 
可 安全 共享 . 


12.3. PC/104 和 PC/104+ 


当前 在 工业 世界 中 ，2 个 总 线 体系 是 非常 时 墅 的 : PC/104 和 PC/104+. 2 个 在 PC- 类 的 
单 板 计算 机 中 都 是 标准 的 . 


2 个 标准 都 是 印刷 电路 板 的 特殊 形式 ， 包 括 板 互 连 的 电子 的 /机 械 的 规格 ， 这 些 总 线 的 实 
际 优点 在 它们 允许 电路 板 被 垂直 堆 登 ， 使 用 一 个 在 设备 一 边 的 插入 并 锁 入 的 连接 器 . 
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2 个 总 线 的 电子 和 连接 排 布 和 ISA(PC/104) 和 PCI (PC/104+) 是 一 致 的 ， 因 此 软件 在 常 
用 的 桌面 总 线 和 它们 2 个 之 间 ， 不 会 注意 到 任何 不 同 . 


12. 4， 其 他 的 PC 总 线 


PCI 和 ISA 是 在 PC 世界 中 最 常用 的 外 设 接口 ， 但 是 它们 不 是 唯一 的 .这 里 是 对 在 PC 
市 场 上 的 其 他 总 线 的 特性 的 总 结 . 














12.4.1. MCA 总 线 


微 通道 体系 (MCA) 是 一 个 IBM 标准 ， 用 在 PS/2 计算 机 和 一 些 笔记 本 电脑 ， 在 硬件 级 别 ， 
微 通道 比 ISA 有 更 多 特性 ， 它 支持 多 主 DMA，32- 位 地 址 和 数据 线 ， 共 享 中 断 线 ， 和 地 理 
式 寻 址 来 存 取 每 块 板 的 配置 寄存 器 ， 这 样 的 寄存 器 被 称 为 可 编程 选项 选择 \P0S) ， 但 是 它 
们 没有 PCI 寄存 器 的 全 部 特点 .Linux 对 微 通道 的 支持 包括 输出 给 模块 的 函数 . 























一 个 设备 驱动 可 读 整 数值 MCA bus 来 看 是 否 它 在 一 个 微 通道 计算 机 上 运行 ， 如 果 这 个 符 
号 是 一 个 预 处 理 宏 ， 宏 MCA bus is a 宏 也 被 定义 ， 如 果 MCA bus isa KME 
义 ， 那 么 MCA bus 是 一 个 被 输出 给 模块 化 代码 的 整数 值 . MCA BUS 和 

MCA bus is a macro 也 定义 在 《asm/processor.h>. 





12.4.2. EISA 总 线 


扩展 ISA EISA) 总 线 是 一 个 对 ISA Hj 32-4 扩展 ， 带 有 一 个 兼容 的 接口 连接 器 ; ISA 
设备 板 可 被 插入 一 个 EISA 连接 器 .增加 的 线 在 ISA 接触 之 下 被 连接 . 











如 同 PCI 和 MCA, EISA 总 线 被 设计 给 无 跳 线 的 设备 ， 并 且 它 有 和 MCA 相同 的 特性 : 32- 
位 地 址 和 数据 线 ， 多 主 DMA， 和 共享 中 断 线 . EISA 设备 被 软件 配置 ， 但 是 它们 不 需要 任 
何 特殊 的 操作 系统 支持 . EISA 驱动 已 经 存在 于 Linux 内 核 给 以 太 网 驱动 和 SCSI 控制 器 . 











一 个 EISA 驱动 检查 值 EISA bus 来 决定 是 否 主机 有 一 个 EISA 总 线 . 象 MCA bus, 
EISA bus 或 者 是 一 个 宏 定义 或 者 是 一 个 变量 ， 依 赖 是 否 EISA bus is a macro 被 定义 . 
2 个 符号 都 定义 在 《asm/processor. h> 

















内 核对 有 sysfs 和 资源 管理 能 力 的 设备 有 完整 的 EISA 支持 .这 位 于 driver/eisa Hox. 








12. 4. 3，VLB 总 线 


另 一 个 对 ISA 的 扩展 是 VESA Local Bus (VLB) 接口 总 线 ， 它 扩展 了 ISA 连接 器 ， 通 过 
添加 第 3 个 知道 长 度 的 槽 位 ， 一 个 设备 可 只 插入 这 个 额外 的 连接 器 (不 用 插入 2 个 关联 
的 ISA 连接 器 ) ， 因 为 VLB REA ISA 连接 器 复制 了 所 有 的 重要 信和 号， 这 样 “ 独 立 ” 的 
VLB 外 设 不 使 用 ISA 覃 位 是 少见 的 ， 因 为 大 部 分 设备 需要 伸 到 后 面板 ， 使 它们 的 外 部 连 
接 器 是 可 用 的 . 


























VESA 总 线 比 EISA ，MCA， 和 PCI 总 线 在 它 的 能 力 方面 更 加 限制 ， 并 且 正 在 从 市 场 上 消 
As 没有 特殊 的 内 核 支 持 位 VLB 而 存在 . 但是， 在 Linux 2.0 中 的 Lance 以 太 网 驱动 
和 IDA 磁盘 驱动 可 处 理 VLB 版 本 的 设备 . 
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12.5. SBus 


当 大 部 分 计算 机 配备 有 PCI 或 ISA 接口 总 线 ， 大 部 分 老式 的 基于 SPARC 的 工作 站 使 用 
SBus 来 连接 它们 的 外 设 . 














SBus 使 一 个 非常 先进 的 设计 ， 尽 管 它 已 出 现 很 长 时 间 . 
SPARC 计算 机 使 用 它 ) 并 且 为 1/0 外 设 板 做 了 优化 ， 换 句 话 说， 你 不 能 插入 额外 的 RAM 
到 SBus RE ( RAM 扩展 板 即 便 在 ISA 世界 也 已 被 忘记 很 长 时 间 了 ， JR PCI REFER 
它们 ). 这 个 优化 打算 来 简化 硬件 设备 和 系统 软件 的 设计 ， 代 价 是 主板 的 一 些 增加 的 复杂 
性 . 
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个 总 线 的 I/0 偏好 导致 了 使 用 虚拟 地 址 来 传送 数据 的 外 设 ， 因 此 不 必 分 配 一 个 连续 的 
DMA 缓冲 .主板 负责 解码 虚拟 地 址 并 映射 它们 到 物理 地 址 ， 这 要 求 连接 一 个 MMU (内 存 管 
理 单 元 ) 到 总 线 ; 负责 这 个 任务 的 芯片 组 称 为 IOMMU， 尽 管 比 在 接口 总 线 上 使 用 物理 地 址 
更 复杂 ， 这 个 设计 被 很 大 地 简化 ， 由 于 SPARC 处 理 器 一 直 设 计 为 保持 MMU 内 核 和 CPU 
内 核 独立 (要么 是 物理 上 地 ， 要 么 全 少 在 概念 上 ). 实际 上 ， 这 个 设计 选择 被 其 他 的 智能 处 
理 器 设计 所 共享 并 且 全 面 受 益 ， 这 个 总 线 的 另 一 个 特性 是 设备 板 采 用 大 块 地 理 式 寻 址 ， 因 
此 没有 必要 实现 一 个 地 址 解码 器 在 每 个 外 设 或 者 处 理 地 址 冲突 

























































































SBus 外 设 使 用 Forth 语言 在 它们 的 PROM 中 来 初始 化 它们 自己 . 选择 Forth 是 因为 解 
释 器 是 轻 量 级 的 ， 并 且 因此 ， 可 轻易 在 任何 一 个 计算 机 系统 固件 中 实现 ， 另 外 ，SBus 规 
范 规 定 了 驱动 处 理 ， 使 兼容 的 L/O 设备 轻易 适用 到 系统 中 并 且 在 系统 启动 时 被 识别 ， 这 
是 一 个 大 的 步骤 来 文 持 多 平台 设备 ; 相 比 我 们 熟悉 的 以 PC 为 中 心 的 ISA 之 类 它 是 一 个 
完全 不 同 的 世界 . 但 是 ， 它 不 能 成 功 ， 因 为 许多 商业 的 原因 . 









































尽管 当前 的 内 核 版 本 提供 了 对 SBus 设备 的 很 多 全 特性 的 支持 ， 这 个 总 线 现 在 用 的 很 少 ， 
以 至 于 在 这 里 它 不 值得 详细 描述 ， 感 兴趣 的 读者 可 查看 源 代码 a RU ome 和 


arch/sparc/mm 

















12.6. NuBus 总 线 


另 一 个 有 趣 的 ， 但 是 几乎 被 筷 记 的 ， 接 口 总 线 是 NuBus， 它 被 发 现 于 老 的 Mac 计算 机 ( 那 
些 有 M68K CPU 家 族 的 ). 























所 有 的 这 个 总 线 是 内 存 映射 的 ( 象 M68K 的 所 有 东西 )， 并 且 设 备 只 被 地 理 式 寻 址 .这 对 

Apple 是 好 的 和 典型 的 ， 因 为 更 老 的 Apple II 已 经 有 一 个 类 似 的 总 线 布局 ， 不 好 的 是 几 
乎 不 可 能 找到 NuBus 的 文档 ， 因 为 Apple 对 于 它 的 Mac 计算 机 一 直 遵 循 的 封锁 任何 东 
西 的 政策 (不 像 之 前 的 Apple II， 它 的 源码 和 原理 图 用 很 少 的 代价 即 可 得 到 ). 











文件 drivers/nubus/nubus.c 包括 儿 乎 我 们 知道 的 关于 这 个 总 线 的 全 部 ， 并 且 读 起 来 是 
有 趣 的 ; 它 显 示 了 有 多 少 难 的 反 向 过 程 需 要 开发 者 来 做 . 


12. 7. 外 部 总 线 
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在 接口 总 线 领 域 的 最 新 的 一 项 是 外 部 总 线 的 整个 类 .这 包括 USB， 固 件 ， 和 IEEE1284 CX 
于 并 口 的 外 部 总 线 )， 这 些 接口 有 些 类 似 于 老 的 非 外 部 的 技术 ， 例 如 PCMCIA/CardBus 和 
甚至 SCSI. 








概念 上 ， 这 些 总 线 既 不 是 全 特性 的 接口 总 线 ( 象 PCI 就 是 ) 也 不 是 哑 通 讯 通道 (例如 串口 
是 )， 难 于 划分 需要 来 使 用 这 些 特性 的 软件 ， 因 为 它 通常 分 为 2 类 : 驱动 ， 对 于 硬件 控制 
器 (例如 PCI SCSI 适配器 的 驱动 或 者 在 ?PCI 接口 一 节 中 介绍 的 PCI 控制 器 ) 以 及 对 特殊 
“客户 “设备 的 驱动 (如 sd. ce， 处 理 通用 的 SCSI 磁盘 和 所 谓 的 PCI 驱动 处 理 总 线 上 插入 
的 卡 ). 


12. 8， 快 速 参考 


本 节 总 结 在 本 章 中 介绍 的 符号 : 


























include <linux/pci. h> 











包含 PCI 寄存 器 的 符号 名 和 几 个 供应 商 和 设备 ID 值 的 头 文件 . 





struct pci dev; 





表示 内 核 中 一 个 PCI 设备 的 结构 . 


struct pci driver; 








代表 一 个 PCI 驱动 的 结构 .所 有 的 PCI 驱动 必须 定义 这 个 . 


struct pci device id; 





描述 这 个 驱动 支持 的 PCI 设备 类 型 的 结构 . 





int pci register driver(struct pci driver *drv); 
int pci module init(struct pci driver *drv); 
void pci unregister driver(struct pci driver *drv); 


从 内 核 注 册 或 注销 一 个 PCI 驱动 的 函数 ， 


struct pci dev *pci find device(unsigned int vendor, unsigned int device, struct pci dev 
*from); 
struct pci dev *pci find device reverse(unsigned int vendor, unsigned int device, const 
struct pci dev *from); 
struct pci dev *pci find subsys (unsigned int vendor, unsigned int device, unsigned int 
ss vendor, unsigned int ss device, const struct pci dev *from); 











struct pci dev *pci find class(unsigned int class, struct pci dev *from); 








在 设备 列表 中 搜寻 带 有 一 个 特定 签名 的 设备 ， 或 者 属于 一 个 特定 类 的 ， 返 回 值 是 

NULL 如 果 没 找到 ，from 用 来 继续 一 个 搜索 ， 在 你 第 一 次 调用 任 一 个 函数 时 它 必须 
是 NULL， 并 且 它 必须 指向 刚刚 找到 的 设备 如 果 你 寻找 更 多 的 设备 ， 这 些 函数 不 推 
存 使 用 用 pci get 变 体 来 代替 . 
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struct pci dev *pci get device(unsigned int vendor, unsigned int device, struct pci dev 
*from); 
struct pci dev *pci get subsys(unsigned int vendor, unsigned int device, unsigned int 
ss vendor, unsigned int ss device, struct pci dev **from); 
struct pci dev *pci get slot(struct pci bus *bus, unsigned int devfn); 





在 设备 列表 中 搜索 一 个 特定 签名 的 设备 ， 或 者 属于 一 个 特定 类 ， 返 回 值 是 NULL 如 
果 没 找到 . from 用 来 继续 一 个 搜索 ; 在 你 第 一 次 调用 任 一 个 函数 时 它 必 须 是 NULL, 
并 且 它 必须 指向 刚刚 找到 的 设备 如 果 你 寻找 更 多 的 设备 返回 的 结构 使 它 的 引用 计 
数 递增 ， 并 且 在 调用 者 完成 它 ， 函 数 pci dev put 必须 被 调用 . 








int pci read config byte(struct pci dev *dev, int where, u8 *val); 

int pci read config word(struct pci dev *dev, int where, ul6 *val); 
int pci read config dword(struct pci dev *dev, int where, u32 *val); 
int pci write config byte (struct pci dev *dev, int where, u8 *val); 
int pci write config word (struct pci dev *dev, int where, ul6 *val); 
int pci write config dword (struct pci dev *dev, int where, u32 *val); 

















读 或 写 PCI 配置 寄存 器 的 函数 ， 尽管 Linux 内 核 负 责 字 节 序 ， 程 序 员 必须 小 心 字 
节 序 当 从 单个 字 节 组 合 多 字 节 值 时 ，PCI 总 线 是 小 端 , 





int pci enable device(struct pci dev *dev); 
使 能 一 个 PCI 设备 . 


unsigned long pci resource start(struct pci dev *dev, int bar); 
unsigned long pci resource end(struct pci dev *dev, int bar); 
unsigned long pci resource flags(struct pci dev *dev, int bar); 


处 理 PCI 设备 资源 的 函数 . 
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第 13 Æ USB 驱动 


H RAT ER ZR (USB) 是 一 个 在 主机 和 许多 外 设 之 间 的 连接 . 最 初 它 被 创建 来 替代 许多 慢 速 和 不 同 的 总 线 - 
， 串 口 ， 和 键 稚 连 接 -- 有 一 个 单个 的 所 有 设备 都 可 以 连接 的 总 线 类 型 . USB 已 经 成 长 超出 了 这 些 
慢 速 连接 并 且 现 在 支持 几乎 每 种 可 以 连接 到 PC 的 设备 . USB 规范 的 最 新 版 本 增加 了 高 速 连接 ， 理 论 上 
到 480 MBps. 
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拓扑 结构 上 ， 一 个 USB 子 系统 没有 如 同一 个 总 线 一 样 分 布 ; 它 更 多 是 一 个 树 ， 有 几 个 点 对 点 连接 .这 
些 连接 是 4- 线 电缆 (地 ， 电 源 ， 和 2 个 信号 线 ) 来 连接 一 个 设备 和 一 个 集线器 ， 如 同 双 绞 线 以 太 网 
USB 主 控制 器 负责 询问 每 个 USB 设备 是 否 它 有 数据 发 送 ， 由 于 这 个 拓扑 关系 ， 一 个 USB 设备 在 没有 首 
先 被 主 控制 器 询问 时 从 不 启动 发 送 数据 ， 这 个 配置 允许 一 个 非常 容易 即 播 即 用 的 系统 ， 这 样 各 种 设备 可 
自动 被 主机 配置 . 




























































































在 技术 层面 这 个 总 线 是 非常 简单 的 ， 因 为 它 是 一 个 单 主 实现 ， 其 中 主机 查询 各 种 外 设 . 除了 这 个 固有 的 
限制 ， 这 个 总 线 有 一 些 有 趣 的 特性 ， 例 如 一 个 设备 能 够 请 求 一 个 固定 的 数据 传送 带宽 ， 为 了 可 靠 地 支持 
视频 和 音频 I/0.， 男 一 个 重要 的 特性 是 它 只 作为 设备 和 主机 之 间 的 一 个 通讯 通道 ， 对 它 传递 的 数据 没有 
特殊 的 含义 和 结构 要 求 . 





























Li 















































实际 上 ， 有 一 些 结构 ， 但 是 它 大 部 分 精简 为 适应 一 个 预先 定义 的 类 别 : a, A EBERT BOE 9, 
而 一 些 视 频 摄像 头 会 . 

















USB 协议 规范 定义 了 一 套 标 准 ， 任 何 特定 类 型 的 设备 都 可 以 遵循 ， 如 果 一 个 设备 遵循 这 个 标准 ， 那 么 给 
那个 设备 的 一 个 特殊 的 驱动 就 不 必 了 .这 些 不 同 的 类 型 称 为 类 ， 并 且 包含 如 同 存储 设备 ， 键 盘 ， 鼠 标 ， 
游戏 杆 ， 网 络 设备 ， 和 猫 ， 其 他 不 适合 这 些 类 的 设备 需要 一 个 特殊 的 供应 商 - 特 定 的 驱动 给 这 些 特别 的 
设备 视频 设备 和 USB- 到 -串口 设备 是 一 个 好 的 例子 ， 这 里 没有 定义 好 的 标准 ， 并 且 需 要 一 个 驱动 给 
每 个 来 自 不 同 制造 商 的 不 同 的 设备 . 




























































































这 些 特性 ， 连 同 回 有 的 设计 上 的 热 插 拔 能 力 ， 使 USB 称 为 一 个 方便 的 ， 低 成 本 的 机 制 来 连接 (和 去 连接 ) 
多 个 设备 到 计算 机 ， 而 不 必 关 机 ， 开 盒子 ， 并 且 旋 开 螺 钉 和 电线 
































Linux 内 核 文 持 2 类 USB 驱动 : 位 于 主机 系统 的 驱动 和 位 于 设备 的 驱动 。 给 主机 系统 的 USB 驱动 控 
制 插入 其 中 的 USB 设备 ， 从 主机 的 观点 看 (一 个 通常 的 USB. 主机 是 一 个 桌面 计算 机 ). 在 设备 中 的 USB 
驱动 ， 控 制 单个 设备 如 何 作为 一 个 USB 设备 看 待 主机 系统 .由 于 术语 ”USB 设备 驱动 “是 非常 迷惑 ， 

USB 开发 者 已 经 创建 了 术语 ”USB 器 件 驱 动 “来 描述 控制 一 个 连接 到 计算 机 的 USB. 设备 的 驱动 ( 记 住 
Linux 也 运行 在 这 些小 的 冉 入 式 的 设备 中 )， 本 章 详 述 了 运行 在 一 台 桌 面 计算 机 上 的 USB 系统 如 何 工作 
Hj. USB 器 件 驱 动 此 时 超出 了 本 书 的 范围 . 




































































如 同 图 USB 驱动 概览 所 示 ，USB 驱动 位 于 不 同 的 内 核子 系统 ( 块 ， 网 络 ， 字 符 ， 等 等 ) 和 硬件 控制 器 之 
E. USB 核心 提供 了 一 个 接口 给 USB 驱动 用 来 存 取 和 控制 USB 硬件 ， 而 不 必 担 心 出 现在 系统 中 的 不 同 
的 USB 硬件 控制 器 






































图 13.1. USB 驱动 概览 
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图 13.2. USB 设备 概览 
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13.1. USB 设备 基础 知识 


一 个 USB 设备 是 一 个 非常 复杂 的 事物 ， 如 同 在 官方 的 USB 文档 (可 从 

http://www. usb. org 中 得 到 ) 中 描述 的 ， 幸运 的 是 ，Linux 提供 了 一 个 子 系统 称 为 USB 
核 ， 来 处 理 大 部 分 复杂 的 工作 ， 这 一 章 描述 驱动 和 USB 核 之 间 的 交互 . 图 USB 设备 概览 
显示 了 USB 设备 如 何 包 含 配置 ， 接 口 ， 和 端点 ， 以 及 USB 驱动 如 何 绑 定 到 USB 接口 ， 
而 不 是 整个 USB 设备 . 














13. 1. 1， 端 点 





USB 通讯 的 最 基本 形式 是 通过 某 些 称 为 端点 的 .一 个 USB 端点 只 能 在 一 个 方向 承载 数 
据 ， 或 者 从 主机 到 设备 ( 称 为 输出 端点 ) 或 者 从 设备 到 主机 ( 称 为 输入 端点 )， 端 点 可 看 作 一 
个 单 向 的 管道 . 

一 个 USB 端点 可 是 4 种 不 同类 型 的 一 种 ， 它 来 描述 数据 如 何 被 传送 : 
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CONTROL 




















控制 端点 被 用 来 允许 对 USB 设备 的 不 同 部 分 存 取 . 通常 用 作 配 置 设备 ， 获 取 关 于 
设备 的 信息 ， 发 送 命令 到 设备 ， 或 者 获取 关于 设备 的 状态 报告 ,这 些 端 点 在 尺寸 上 
常常 较 小 ， 每 个 USB 设备 有 一 个 控制 端点 称 为 "端点 07, 4€ USB 核 用 来 在 插入 时 
配置 设备 ， 这 些 传 送 由 USB 协议 保证 来 总 有 足够 的 带宽 使 它 到 达 设 备 . 
































INTERRUPT 


中 断 端 点 传送 小 量 的 数据 ， 以 固定 的 速率 在 每 次 USB 主 请 求 设备 数据 时 ， 这 些 端 
点 对 USB 键盘 和 鼠标 来 说 是 主要 的 传送 方法 .它们 还 用 来 传送 数据 到 USB 设备 来 
控制 设备 ， 但 通常 不 用 来 传送 大 量 数据 这些 传送 由 USB 协议 保证 来 总 有 足够 的 



































带宽 使 它 到 达 设 备 . 

BULK 
块 端 点 传送 大 量 的 数据 ， 这 些 端 点 常常 比 中 断 端 点 大 (它们 一 次 可 持 有 更 多 的 字符 ). 
它们 是 普 忆 的， 对 于 需要 传送 不 能 有 任何 数据 丢失 的 数据 ， 这 些 传送 不 被 USB 协 
议 保证 来 一 直 使 它 在 特定 时 间 范 围 内 完成 ， 如 果 总 线 上 没有 足够 的 空间 来 发 送 整个 
BULK 报 文 ， 它 被 分 为 多 次 传送 到 或 者 从 设备 ， 这 些 端点 普 所 在 打印 机 ， 存 储 器 ， 
和 网 络 设备 上 . 

ISOCHRONOUS 





同步 端点 也 传送 大 量 数据 ， 但 是 这 个 数据 党 第 不 被 保证 它 完 成 ， 这 些 端 点 用 在 可 以 
处 理 数 据 丢失 的 设备 中 ， 并 且 更 多 依赖 于 保持 持续 的 数据 流 ， 实时 数据 收集 ， 例 如 
音频 和 视频 设备 ， 一 直 都 使 用 这 些 端点 . 























控制 和 块 端点 用 作 异 步 数据 传送 ， 无 论 何 时 驱动 决定 使 用 它们 ， 中断 和 同步 端点 是 周期 性 
的 .这 意味 着 这 些 端点 被 设置 来 连续 传送 数据 在 固定 的 时 间 ， 这 使 它们 的 带宽 被 USB 核 
所 保留 . 




















USB 端点 在 内 核 中 使 用 结构 struct usb host endpoint 来 描述 .这 个 结构 包含 真实 的 端 
点 信息 在 另 一 个 结构 中 ， 称 为 struct usb endpoint descriptor. 后 者 包含 所 有 的 USB- 
特定 数据 ， 以 设备 自身 特定 的 准确 格式 ， 驱 动 关心 的 这 个 结构 的 成 员 是 : 
































bEndpointAddress 








这 是 这 个 特定 端点 的 USB 地 址 .还 包含 在 这 个 8- 位 值 的 是 端点 的 方向 ， 位 掩 码 
USB DIR OUT 和 USB DIR IN 可 用 来 和 这 个 成 员 比 对 ， 来 决定 给 这 个 端点 的 数据 是 
到 设备 还 是 到 主机 . 











bmAttributes 


这 是 端点 的 类 型 ， 位 掩 码 USB ENDPOINT XFERTYPE MASK 应 当 用 来 和 这 个 值 比 对 ， 
来 决定 这 个 端点 是 否 是 USB ENDPOINT XFER ISOC, USB ENDPOINT XFER BULK, 3X 
者 是 类 型 USB ENDPOINT _XFER_INT.， 这 些 宏 定义 了 同步 ， 块 ， 和 中 断 端 点 ， 相 应 地 . 
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wMaxPacketSize 














这 是 以 字 节 计 的 这 个 端点 可 一 次 处 理 的 最 大 大 小 .注意 驱动 可 能 发 送 大量 的 比 这 个 
值 大 的 数据 到 端点 ， 但 是 数据 会 被 分 为 wMaxPakcetSize 的 块 ， 当 真正 传送 到 设备 
时 ， 对 于 高 速 设备 ， 这 个 成 员 可 用 来 文 持 端点 的 一 个 高 带宽 模式 ， 通 过 使 用 几 个 额 
外 位 在 这 个 值 的 高 位 部 分 ， 关 于 如 何 完成 的 细节 见 USB 规范 . 

















bInterval 





如 果 这 个 端点 是 中 断 类 型 的 ， 这 个 值 是 为 这 个 端点 设置 的 间隔 ， 即 在 请 求 端 点 的 中 
断 之 间 的 时 间 ， 这 个 值 以 齐 秒 表示 . 








这 个 结构 的 成 员 没 有 一 个 “传统 ”Linux 内 核 的 命名 机 制 . 这 是 因为 这 些 成 员 直 接 对 应 于 
USB 规范 中 的 名 子 . USB 内 核 程 序 员 认为 使 用 规定 的 名 子 更 重要 ， 以 便 在 阅读 规范 时 减少 
混乱 ， 不 必 使 这 些 名 子 对 Linux 程序 员 看 起 来 熟悉 . 























13. 1. 2. 接口 


USB 端点 被 绑 在 接口 中 ，USB 接口 只 处 理 一 类 USB 逻辑 连接 ， 例 如 一 个 鼠标 ， 一 个 键盘 ， 
或 者 一 个 音频 流 ， 一 些 USB 设备 有 多 个 接口 ， 例 如 一 个 USB 扬声器 可 能 有 2 个 接口 : 
一 个 USB 键盘 给 按钮 和 一 个 USB 音频 流 ， 因 为 一 个 USB 接口 表示 基本 的 功能 ， 每 个 
USB 驱动 控制 一 个 接口 ; 因此 ， 对 扬声器 的 例子 ，Linux 需要 2 个 不 同 的 驱动 给 一 个 便 
件 设 备 . 

















USB 接口 可 能 有 预备 的 设置 ， 是 对 接口 参数 的 不 同 选择 ， 接口 的 初始 化 的 状态 是 第 一 个 设 
置 ，0 号 ， 预 备 的 设置 可 用 来 以 不 同方 式 控制 单独 的 端点 ， 例 如 来 保留 不 同 量 的 USB 带 
宽 给 设备 ， 每 个 有 同步 端点 的 设备 使 用 预备 设备 给 同一 个 接口 . 

















USB 接口 在 内 核 中 使 用 struct usb interface 结构 来 描述 . 这 个 结构 是 USB 核 传 递 给 
USB 驱动 的 并 且 是 USB 驱动 接 下 来 负责 控制 的 .这 个 结构 中 的 重要 成 员 是 : 

















struct usb host interface *altsetting 





一 个 包含 所 有 预备 设置 的 接口 结构 的 数组 ， 可 被 挑选 给 这 个 接口 ， 每 个 struct 
usb host interface 包含 一 套 端 点 配置 ， 如 同 由 struct usb host endpoint 结 
构 所 定义 的 .注意 这 些 接口 结构 没有 特别 的 顺序 . 














unsigned num altsetting 
由 altsetting 指针 指向 的 预备 设置 的 数目 . 
struct usb host interface *cur altsetting 
指向 数组 altsetting 的 一 个 指针 ， 表 示 这 个 接口 当前 的 激活 的 设置 . 


int minor 
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如 果 绑 定 到 这 个 接口 的 USB 驱动 使 用 USB 主编 号 ， 这 个 变量 包含 由 USB 核心 安 
排 给 接口 的 次 编号 ， 这 只 在 一 次 成 功 地 调用 usb register dev (本 章 稍 后 描述 ) 之 
后 才 有 效 . 




















在 struct usb interface 结构 中 有 其 他 成 员 ， 但 是 USB 驱动 不 需要 知道 它们 . 
13. 1. 3， 配 置 


USB 接口 是 自己 被 捆绑 到 配置 的 ， 一 个 USB 设备 可 有 多 个 配置 并 且 可 能 在 它们 之 间 转 换 
以 便 改 变 设备 的 状态 ， 例 如 ， 一 些 允 许 固件 被 下 载 到 它们 的 设备 包含 多 个 配置 来 实现 这 个 . 
一 个 配置 只 能 在 一 个 时 间 点 上 被 使 能 .Linux 处 理 多 配置 USB 设备 不 是 太 好 ， 但 是 ， 幸 
运 的 是 ， 它 们 很 少 . 



























































linux 描述 USB 配置 使 用 结构 struct usb host config 和 整个 USB 设备 使 用 结构 
struct usb_device. USB 设备 驱动 通常 不 会 需要 读 写 这 些 结构 的 任何 值 ， 因 此 它们 在 这 
里 没有 详细 定义 ， 好 奇 的 读者 可 在 内 核 源码 树 的 文件 include/linux/usb.h 中 找到 对 它 
们 的 描述 . 

















一 个 USB 设备 驱动 通常 不 得 不 转换 数据 从 给 定 的 struct usb interface 结构 到 struct 
usb device 结构 ，USB 核心 需要 给 很 多 的 函数 调用 .为 此 ， 提 供 有 函数 
interface to usbdev. 在 以 后 ， 希 望 所 有 的 当前 需要 一 个 struct usb device 的 USB 
调用 ， 将 被 转换 为 采用 一 个 struct usb interface 参数 ， 并 且 不 会 要 求 驱 动 做 这 个 转换 . 












































所 以 总 结 ，USB 设备 是 非常 复杂 的 ， 并 且 由 许多 不 同 逻 辑 单 元 组 成 ， 这些 单 元 之 间 的 关系 
可 简单 地 描述 如 下 : 




















设备 通常 有 一 个 或 多 个 配置 . 
配置 常常 有 一 个 或 多 个 接口 
接口 常常 有 一 个 或 多 个 设置 . 
接口 有 零 或 多 个 端点 . 














四 本 章 的 多 个 部 分 是 基于 内 核 中 的 给 Linux 内 核 USB 代码 的 文档 ， 这 些 代码 由 内 核 USB 
开发 者 编写 并 且 以 GPL 发 布 . 








13.2. USB 和 sysfs 


由 于 单个 USB 物理 设备 的 复杂 性 ， 设 备 在 sysfs 中 的 表示 也 非常 复杂 ， 物 理 USB 设备 

(通过 struct usb device 表示 ) 和 单个 USB 接口 (由 struct usb interface 表示 ) 都 作 
为 单个 设备 出 现在 sysfs. (这 是 因为 这 2 个 结构 都 包含 一 个 struct device 结构 ). 例 
如 ， 对 于 一 个 简单 的 只 包含 一 个 USB 接口 的 USB 鼠标 ， 下 面 的 内 容 给 这 个 设备 的 sysfs 
目录 树 : 























/ Ssys/devices/pci0000:00/0000:00:09. 0/usb2/2-1 
|-- 2-1:1.0 
| | 一 bAlternateSetting 
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— bInterfaceClass 
— bInterfaceNumber 
— bInterfaceProtocol 
— bInterfaceSubClass 
— bNumEndpoints 
— detach state 
— ilnterface 





|— power 
^— state 
— bConfigurationValue 
— bDeviceClass 
— bDeviceProtocol 
— bDeviceSubClass 
— bMaxPower 
— bNumConfigurations 
— bNumInterfaces 
— bcedDevice 
— bmAttributes 
— detach state 
— devnum 
— idProduct 
— idVendor 
— maxchild 
— power 
'— state 





— speed 
^— version 





结构 usb device 在 树 中 被 表示 在 : 


/ sys/devices/pci0000:00/0000:00:09. 0/usb2/2-1 





而 鼠标 的 USB 接口 - USB 鼠标 设备 驱动 被 绑 定 到 的 接口 - 位 于 目录 : 
/ sys/devices/pci0000:00/0000:00:09. 0/usb2/2-1/2-1:1. 0 


为 帮助 理解 这 个 长 设备 路 径 的 含义 ， 我 们 描述 内 核 如 何 标识 USB 设备 . 











第 一 个 USB 设备 是 一 个 根 集线器 . 这 是 USB 控制 器 ， 常 常 包 含 在 一 个 PCI Wem. 
制 器 的 命名 是 由 于 它 控制 整个 连接 到 它 上 面 的 USB 总 线 ， 控制 器 是 一 个 PCI 总 线 和 USB 
总 线 之 间 的 桥 ， 同 时 是 总 线 上 的 第 一 个 设备 . 





所 有 的 根 集 线 器 被 USB 核心 安排 了 一 个 唯一 的 号 ， 在 我 们 的 例子 里 ， 根 集线器 称 为 usb2， 
因为 它 是 注册 到 USB 核心 的 第 2 个 根 集线器 ， 可 包含 在 单个 系统 中 在 任何 时 间 的 根 集 线 
器 的 数目 没有 限制 . 


每 个 在 USB 总 线 上 的 设备 采用 根 集线器 的 号 作为 它 的 名 子 的 第 一 个 数字 .， 紧 跟着 的 是 - 
字符 和 设备 插入 的 端口 号 ， 由 于 我 们 例子 中 的 设备 插 在 第 一 个 端口 ， 一 个 1 被 添加 到 名 
F. 因此 给 主 USB 鼠标 设备 的 名 子 是 2-1， 因 为 这 个 UB 设备 包含 一 个 接口 ， 那 使 得 树 
中 的 另 一 个 设备 被 添加 到 sysfs 路 径 ， 到 此 点 ，USB 接口 的 命名 方法 是 设备 名 :在 我 们 的 
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例子 ， 是 2-1 接着 一 个 分 号 和 USB 配置 名 ， 接 着 一 个 句点 和 接口 名 .因此 对 这 个 例子 ， 
设备 名 是 2-1:1.0 因为 它 是 第 一 个 配置 并 且 有 接口 号 0. 






































总 结 ，USB sysfs 设备 命名 方法 是 : 
root hub-hub port:config. interface 


随 独 设备 在 USB 树 中 进一步 向 下 ， 并 且 越 来 越 多 的 USB Rar Rakari O GAS JH 
字符 串 中 紧 随 着 链 中 之 前 的 集线器 端口 号 ， 对 一 个 2 层 的 树 ， 设 备 名 看 来 象 : 


root hub-hub port-hub port:config. interface 





如 同 可 在 之 前 的 USB 设备 和 接口 目录 列表 中 见 到 的 ， 所 有 的 USB 特定 信息 可 直接 从 
sysfs 获得 (例如 ，idVendor，idProduct， 和 bMaxPower 信息 ). 一 个 文件 ， 
bConfigrationValue， 可 被 写 入 来 改变 激活 的 正 被 使 用 的 USB 配置 .这 对 有 多 个 配置 的 
设备 是 有 用 的 ， 当 内 核 不 能 决定 选择 什么 配置 来 正确 操作 设备 ， 许 多 USB 猫 需 要 有 正确 
的 配置 值 被 写 到 这 个 文件 来 使 正确 的 USB 驱动 绑 定 到 设备 . 






























































sysfs 没 暴 圳 一 个 USB 设备 的 所 有 的 不 同 部 分 , 因为 它 停 止 在 接口 水 平 ， 任 何 这 个 设备 可 
能 包含 的 预备 配置 都 没有 展示 ， 连 同 关 联 到 接口 的 端点 的 细节 .这 个 信息 可 在 usbfs X 
件 系统 中 找到 ， 它 加 载 在 系统 的 /proc/bus/usb/ 目录 . 文件 /proc/bus/usb/devices 
展示 了 所 有 的 在 sysfs 中 暴露 的 信息 ， 连 同 所 有 的 出 现在 系统 中 的 USB. 设备 的 预备 配置 
和 端点 信息 . usbfs 也 人 允许 用 户 空 间 程序 直接 对 话 USB 设备 ， 这 已 使 能 了 许多 内 核 驱 动 
被 移出 到 用 户 空间 ， 这 里 容易 维护 和 调试 ，USB 扫描 器 驱动 是 这 个 的 一 个 好 例子 ， 由 于 它 
不 再 在 内 核 中 出 现 ， 它 的 功能 现在 包含 在 用 户 空间 的 SANE 库 程 序 中 . 


























13.3. USB 的 Urbs 


linux 内 核 中 的 USB 代码 和 所 有 的 USB 设备 通讯 使 用 称 为 urb 的 东西 ( USB request 
block) .这 个 请 求 块 用 struct urb 结构 描述 并 且 可 在 include/linux/usb.h 中 找到 . 














一 个 urb 用 来 发 送 或 接受 数据 到 或 者 从 一 个 特定 USB 设备 上 的 特定 的 USB 端点 ， 以 一 
种 异步 的 方式 ， 它 用 起 来 非常 象 一 个 kiocb 结构 被 用 在 文件 系统 异步 1/0 代码 ， 或 者 如 
同一 个 struct skbuff 用 在 网 络 代码 中 .一 个 USB 设备 驱动 可 能 分 配 许多 urb 给 一 个 
端点 或 者 可 能 重用 单个 urb 给 多 个 不 同 的 端点 ， 根 据 驱 动 的 需要 . 设备 中 的 每 个 端点 都 
处 理 一 个 urb 队列 ， 以 至 于 多 个 urb 可 被 发 送 到 相同 的 端点 ， 在 队列 清空 之 前 ， 一 个 
urb 的 典型 生命 循环 如 下 : 
































被 一 个 USB 设备 驱动 创建 . 
安排 给 一 个 特定 USB 设备 的 特定 端点 . 

提交 给 USB 核心 ， 被 USB 设备 驱动 . 

提交 给 特定 设备 的 被 USB 核心 指定 的 USB 主机 控制 器 驱动 ，. 
被 USB 主机 控制 器 处 理 ， 它 做 一 个 USB 传送 到 设备 . 

当 urb 完成 ，USB 主机 控制 器 驱动 通知 USB 设备 驱动 . 
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urb 也 可 被 提交 这 个 urb 的 驱动 在 任何 时 间 取 消 ， 或 者 被 USB 核心 如 果 设 备 被 从 系统 中 
移出 .urb 被 动态 创建 并 且 包含 一 个 内 部 引用 计数 ， 使 它们 在 这 个 urb 的 最 后 一 个 用 户 
释放 它 时 被 自动 释放 . 














本 章 中 描述 的 处 理 urb 的 过 程 是 有 用 的 ， 因 为 它 允 许 流 和 其 他 复杂 的 ， 交 营 的 通讯 以 允 
许 驱 动 来 获得 最 高 可 能 的 数据 传送 速度 ， 但 是 有 更 少 麻 烦 的 过 程 可 用 ， 如 果 你 只 是 想 发 送 
单独 的 块 或 者 控制 消息 ， 并 且 不 关心 数据 吞吐 率 .( 见 “USB 传送 不 用 urb — D). 











13. 3. 1， 结构 struct urb 





struct urb 结构 中 和 USB 设备 驱动 有 关 的 成 员 是 : 


struct usb device *dev 





指向 这 个 urb 要 发 送 到 的 struct usb device 的 指针 ， 这 个 变量 必须 被 USB UK 
动 初始 化 ， 在 这 个 urb 被 发 送 到 USB 核心 之 前 . 





unsigned int pipe 





端点 消息 ， 给 这 个 urb 要 被 发 送 到 的 特定 struct usb_device， 这 个 变量 必须 被 
USB 驱动 初始 化 ， 在 这 个 urb 被 发 送 到 USB 核心 之 前 . 














E 


为 设置 这 个 结构 的 成 员 ， 了 驱动 使 用 下 面 的 函数 是 适当 的 ， 依 据 流 动 的 方向 ， 注 意 食 


个 端点 只 可 是 一 个 类 型 . 


unsigned int usb sndctrlpipe(struct usb device *dev, unsigned int 
endpoint) 

















指定 一 个 控制 OUT 端点 给 特定 的 带 有 特定 端点 号 的 USB 设备 . 


unsigned int usb rcvctrlpipe(struct usb device *dev, unsigned int 
endpoint) 











指定 一 个 控制 IN 端点 给 带 有 特定 端点 号 的 特定 USB 设备 . 


unsigned int usb sndbulkpipe(struct usb device *dev, unsigned int 
endpoint) 








指定 一 个 块 OUT 端点 给 带 有 特定 端点 号 的 特定 USB 设备 














unsigned int usb rcvbulkpipe(struct usb device *dev, unsigned int 
endpoint) 





指定 一 个 块 IN 端点 给 带 有 特定 端点 号 的 特定 USB 设备 





unsigned int usb sndintpipe(struct usb device *dev, unsigned int 
endpoint) 
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指定 一 个 中 断 OUT. 端点 给 融 有 特定 端点 号 的 特定 USB 设备 











unsigned int usb rcvintpipe(struct usb device *dev, unsigned int 
endpoint) 











指定 一 个 中 断 IN 端点 给 带 有 特定 端点 号 的 特定 USB 设备 





unsigned int usb sndisocpipe(struct usb device *dev, unsigned int 
endpoint) 








指定 一 个 同步 OUT 端点 给 带 有 特定 端点 号 的 特定 USB 设备 











unsigned int usb rcvisocpipe(struct usb device *dev, unsigned int 
endpoint) 








指定 一 个 同步 IN 端点 给 带 有 特定 端点 号 的 特定 USB 设备 





unsigned int transfer flags 


这 个 变量 可 被 设置 为 不 同位 值 ， 根 据 这 个 USB 驱动 想 这 个 urb 发 生 什 么 ， 可 用 的 
值 是 : 





URB SHORT NOT OK 


当 置 位 ， 它 指出 任何 在 一 个 IN 端点 上 可 能 发 生 的 短 读 ， 应 当 被 USB 核心 当 作 一 
个 错误 ， 这 个 值 只 对 从 USB 设备 读 的 urb 有 用 ， 不 是 写 urbs. 





URB ISO ASAP 





如 果 这 个 urb 是 同步 的 ， 这 个 位 可 被 置 位 如 果 驱 动 想 这 个 urb 被 调度 ， 只 要 市 宽 
允许 它 这 样 ， 并 且 在 此 点 设置 这 个 urb 中 的 start frame 变量 ， 如果 对 于 同步 
urb 这 个 位 没有 被 置 位 ， 驱 动 必须 指定 start frame 值 并 且 必 须 能 够 正确 恢复 ， 
如 果 没 有 在 那个 时 刻 启动 ， 见 下 面 的 章节 关于 同步 urb 更 多 的 消息 . 








URB NO TRANSFER DMA MAP 








应 当 被 置 位 ， 当 urb 包含 一 个 要 被 发 送 的 DMA RI. USB 核心 使 用 这 个 被 
transfer dma 变量 指向 的 缓冲 ， 不 是 被 transfer buffer 变量 指向 的 缓冲 . 








URB NO SETUP DMA MAP 











象 URB NO TRANSFER DMA MAP 位 ， 这 个 位 用 来 控制 有 一 个 DMA 缓冲 已 经 建立 的 
urb. 如 果 它 被 置 位 ，USB 核心 使 用 这 个 被 setup dma 变量 而 不 是 setup packet 
变量 指向 的 缓冲 . 








URB ASYNC UNLINK 
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如 果 置 位 ， 给 这 个 urb 的 对 usb unlink urb 的 调用 几乎 立刻 返回 ， 并 且 这 个 
urb 在 后 面 被 解除 连接 . 否则， 这 个 函数 等 待 直到 urb 完全 被 去 链 并 且 在 返回 前 
结束 ， 小 心 使 用 这 个 位 ， 因 为 它 可 有 非常 难于 调试 的 同步 问题 . 

















URB NO FSBR 





只 有 UHCI USB 主机 控制 器 驱动 使 用 ， 并 且 告诉 它 不 要 试图 做 Front Side Bus 
Reclamation 逻辑 ， 这 个 位 通常 应 当 不 设置 ， 因 为 有 UHCI 主机 控制 器 的 机 器 创建 
了 许多 CPU 负担 ， 并 且 PCI 总 线 被 等 待 设置 了 这 个 位 的 urb 所 饱和 . 

















URB ZERO PACKET 





如 果 置 位 ， 一 个 块 OUT urb 通过 发 送 不 包含 数据 的 短 报 文 而 结束 ， 当 数据 对 齐 到 
一 个 端点 报 文 边界 .这 被 一 些 坏 掉 的 USB 设备 所 需要 (例如 一 些 USB 到 IR 的 设 
备 ) 为 了 正确 的 工作 .. 




















URB NO INTERRUPT 








如 果 置 位 ， 硬 件 当 urb 结束 时 可 能 不 产生 一 个 中 断 ， 这 个 位 应 当 小 心 使 用 并 且 只 
在 排队 多 个 到 相同 端点 的 urb 时 使 用 ，USB 核心 函数 使 用 这 个 为 了 做 DMA 缓冲 传 








void *transfer buffer 


指向 用 在 发 送 数据 到 设备 (对 一 个 OUT urb) 或 者 从 设备 中 获取 数据 (对 于 一 个 IN 
urb) 的 缓冲 的 指针 ， 对 主机 控制 器 为 了 正确 存 取 这 个 缓冲 ， 它 必须 被 使 用 一 个 对 
kmalloc 调用 来 创建 ， 不 是 在 堆栈 或 者 静态 地 ， 对 控制 端点 ， 这 个 缓冲 是 给 发 送 的 
数据 阶段 























dma addr t transfer dma 





用 来 使 用 DMA 传送 数据 到 USB 设备 的 缓冲 . 
int transfer buffer length 


RIKE, W transfer buffer 或 者 transfer dma 变量 指向 (由 于 只 有 一 个 可 
被 一 个 urb BER. 如 果 这 是 0， 没 有 传送 缓冲 被 USB 核心 所 使 用 . 











对 于 一 个 OUT 端点 ， 如 果 这 个 端点 最 大 的 大 小 比 这 个 变量 指定 的 值 小 ， 对 这 个 
USB 设备 的 传送 被 分 成 更 小 的 块 为 了 正确 的 传送 数据 ， 这 种 大 的 传送 发 生 在 连续 的 
USB 帧 ， 提 交 一 个 大 块 数据 在 一 个 urb 中 是 非常 快 ， 并 且 使 USB 主机 控制 器 去 划 
分 为 更 小 的 快 ， 比 以 连续 的 顺序 发 送 小 缓冲 . 























unsigned char *setup packet 


指向 给 一 个 控制 urb 的 setup 报 文 的 指针 .， 它 在 位 于 传送 缓冲 中 的 数据 之 前 被 传 
送 ， 这 个 变量 只 对 控制 urb 有 效 . 
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dma addr t setup dma 





给 控制 urb 的 setupt 报 文 的 DMA 缓冲 .在 位 于 正常 传送 缓冲 的 数据 之 前 被 传送 . 
这 个 变量 只 对 控制 urb 有 效 . 








usb complete t complete 





指 问 完成 处 理 者 函数 的 指针 ， 它 被 USB 核心 调用 当 这 个 urb 被 完全 传送 或 者 当 
urb 发 生 一 个 错误 .在 这 个 函数 中 ，USB 驱动 可 检查 这 个 urb， 释 放 它 ， 或 者 重新 
提交 它 给 另 一 次 传送 . ( 见 “completingUrbs: 完成 回调 处 理 者 ”"， 关 于 完成 处 理 者 的 
EZATT). 

















usb complete t 类 型 定义 如 此 : 


typedef void (*usb complete t) (struct urb *, struct pt regs *); 
void *context 





指向 数据 点 的 指针 ， 它 可 被 USB 驱动 设置 ， 它 可 在 完成 处 理 者 中 使 用 当 urb 被 返 
回 到 了 驱动。 关于 这 个 变量 的 细节 见 后 续 革 节 . 


int actual length 














当 这 个 urb 被 完成 ， 这 个 变量 被 设置 为 数据 的 真实 长 度 ， 或 者 由 这 个 urb (对 于 
OUT urb) 发 送 或 者 由 这 个 urb (对 于 IN urb) 接 受 ， 对 于 IN urb， 这 个 必须 被 用 来 
TRA transfer buffer length 变量 ， 因 为 接收 的 数据 可 能 比 整 个 缓冲 大 小 小 . 


int status 





当 这 个 urb 被 结束 ， 或 者 开始 由 USB 核心 处 理 ， 这 个 变量 被 设置 为 urb 的 当前 
状态 .一 个 USB 驱动 可 安全 存 取 这 个 变量 的 唯一 时 间 是 在 urb 完成 处 理 者 函数 中 
(在 “CompletingUrps: 完成 回调 处 理 者 “一 节 中 描述 ). 这 个 限制 是 阻止 竞争 情况 ， 
发 生 在 这 个 urb 被 USB 核心 处 理 当 中 . 对 于 同步 urb， 在 这 个 变量 中 的 一 个 成 功 
的 值 (0) 只 指示 是 否 这 个 urb 已 被 去 链 ， 为 获得 在 同步 urb 上 的 详细 状态 ， 应 当 


检查 iso frame desc 变量 . 
































这 个 变量 的 有 效 值 包括 : 

0 

这 个 urb 传送 是 成 功 的 . 

-ENOENT 

这 个 urb 被 对 usb kill urb 的 调用 停止 . 


—ECONNRESET 
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urb 被 对 usb unlink urb 的 调用 去 链 ， 并 且 transfer flags 变量 被 设置 为 
URB ASYNC UNLINK. 


-EINPROGRESS 


这 个 urb 仍然 在 被 USB 主机 控制 器 处 理 中 ， 如 果 你 的 驱动 曾 见 到 这 个 值 ， 它 是 一 
个 你 的 驱动 中 的 bug. 





—EPROTO 
这 个 urb 发 生 下 面 一 个 错误 : 


。 一 个 bitstuff 错误 在 传送 中 发 生 . 
。 人 硬件 没有 及 时 收 到 响应 帧 . 


-EILSEQ 
在 这 个 urb 传送 中 有 一 个 CRC 不 匹配 . 


-EPIPE 








这 个 端点 现在 被 停止 ， 如 果 这 个 包含 的 端点 不 是 一 个 控制 端点 ， 这 个 错误 可 被 清除 
通过 一 个 对 函数 usb clear halt 的 调用 . 





-ECOMM 
在 传送 中 数据 接收 快 于 能 被 写 入 系统 内 存 ， 这 个 错误 值 只 对 IN urb. 


—ENOSR 





在 传送 中 数据 不 能 从 系统 内 存 中 获取 得 足够 快 ， 以 便 可 跟 上 请 求 的 USB 数据 速率 . 
这 个 错误 只 对 OUT urb. 


-EOVERFLOW 


这 个 urb 发 生 一 个 “babble“ 错误 . 一 个 “babble“ 错误 发 生 当 端点 接受 数据 多 于 端 
点 的 特定 最 大 报 文大 小 . 





—EREMOTEIO 


只 发 生 在 当 URB SHORT NOT OK 标志 被 设置 在 urb 的 transfer flags 变量 ， 并 
HARE urb 请 求 的 完整 数量 的 数据 没有 收 到 . 


-ENODEV 
这 个 USB 设备 现在 从 系统 中 消失 . 


—EXDEV 


289 


Linux[] [] (LinuxIDC.com) [| [] [] Ubuntu;Fedora, SUSH[] O O O [] IO O O Linux[] D] E] LU. L] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
只 对 同步 urb 发 生 ， 并 且 意 味 着 传送 只 部 分 完成 ， 为 了 决定 传送 什么 ， 驱 动 必须 
看 单独 的 帧 状态 . 








-EINVAL 


这 个 urb 发 生 了 非常 坏 的 事情 .USB 内 核 文档 描述 了 这 个 值 意味 着 什么 : 








ISO 疯 了 ， 如 果 发 生 这 个 : 退出 并 回 家 . 








它 也 可 发 生 ， 如 果 一 个 参数 在 urb 结构 中 被 不 正确 地 设置 了 ， 或 者 如 果 在 提交 这 
个 urb 给 USB 核心 的 usb_submit urb 调用 中 ， 有 一 个 不 正确 的 函数 参数 . 




















-ESHUTDOWN 


这 个 USB 主机 控制 器 驱动 有 严重 的 错误 ; 它 现 在 已 被 禁止 ， 或 者 设备 和 系统 去 掉 
有 连接， 并且 这 个 urb 在 设备 被 去 除 后 被 提交 ， 它 也 可 发 生 当 这 个 设备 的 配置 改变 ， 
而 这 个 urb 被 提交 给 设备 . 

















通常 ， 错 误 值 -EPROT0，-EILSEQ， 和 -EOVERFLOW 指示 设备 的 硬件 问题 ， 设 备 固 
件 ， 或 者 连接 设备 到 计算 机 的 线 缆 . 


int start frame 











Ax Ere [n] [8] 2 P328 E st H ARA - 
int interval 


c D uM a DAN UE 
而 不 同 ， 对 于 低速 和 高 速 的 设备 ， 单 位 是 帧 ， 它 等 同 于 上 毫秒 .对 于 设备 ， 单 位 是 宏 
帧 的 设备 ， 它 等 同 于 1/8 微 秒 单位 ， 这 个 们 必须 被 USB 驱动 设置 给 同步 或 者 中 靳 
urb， 在 这 个 urb 被 发 送 到 USB 核心 之 前 . 





int number of packets 





只 对 同步 urb 有 效 ， 并 且 指 定 这 个 urb 要 处 理 的 同步 传送 缓冲 的 编号 ， 这 个 值 必 
须 被 USB 驱动 设置 给 同步 urb， 在 这 个 urb 发 送 给 USB 核心 之 前 . 








int error count 


被 USB 核心 设置 ， 只 给 同步 urb 在 它们 完成 之 后 ， 它 指定 报告 任何 类 型 错误 的 同 
步 传送 的 号 码 . 





struct usb iso packet descriptor iso frame desc[0] 





只 对 同步 urb 有 效 . 这 个 变量 是 组 成 这 个 urb 的 一 个 struct 
usb iso packet descriptor 结构 数组 .这 个 结构 允许 单个 urb 来 一 次 定义 多 个 
同步 传送 ， 它 也 用 来 收集 每 个 单独 传送 的 传送 状态 . 














结构 usb iso packet descriptor 由 下 列 成 员 组 成 : 
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unsigned int offset 

TRU TE P3 EP IRR RS CS 7 RA 0 开始 ). 
unsigned int length 

这 个 报 文 的 传送 缓冲 的 长 度 . 

unsigned int actual length 

接收 到 给 这 个 同步 报 文 的 传送 缓冲 的 数据 长 度 . 


unsigned int status 





这 个 报 文 的 单独 同步 传送 的 状态 ， 它 可 采用 同样 的 返回 值 如 同 主 struct urb 结构 
的 状态 变量 . 


13.3.2. 4&J& MISSE urb 
struct urb 结构 在 驱动 中 必须 不 被 静态 创建 ， 或 者 在 男 一 个 结构 中 ， 因 为 这 可 能 破坏 


USB 核心 给 urb 使 用 的 引用 计数 方法 .， 它 必须 使 用 对 usb alloc urb 函数 的 调用 而 被 创 
建 . 这 个 函数 有 这 个 原型 : 


























struct urb *usb alloc urb(int iso packets, int mem flags); 








第 一 个 参数 ，iso_packet， 是 这 个 urb 应 当 包 含 的 同步 报 文 的 数目 ， 如 果 你 不 想 创 建 一 
个 同步 urb， 这 个 变量 应 当 被 设置 为 0 第 2 个 参数 ，mem flags， 是 和 传递 给 kmalloc 
函数 调用 来 从 内 核 分 配 内 存 的 相同 的 标志 类 型 ( 见 “flags 参数 一 节 ， 第 8 章 ， 关 于 这 些 
标志 的 细节 )， 如 果 这 个 函数 在 分 配 足够 内 存 给 这 个 urb 成 功 ， 一 个 指向 urb 的 指针 被 
返回 给 调用 者 ， 如 果 返 回 值 是 NULL， 某 个 错误 在 USB 核心 中 发 生 了 ， 并 且 了 驱动 需要 正确 
地 清理 . 






























































在 创建 了 一 个 urb 之 后 ， 它 必须 被 正确 初始 化 在 它 可 被 USB 核心 使 用 之 前 .如何 初始 化 
不 同类 型 urb 见 下 一 节 


为 了 告诉 USB 核心 驱动 用 完 这 个 urb， 驱 动 必须 调用 usb free urb 函数 .这 个 函数 只 
有 一 个 参数 : 


void usb free urb(struct urb *urb); 








参数 是 一 个 指向 你 要 释放 的 struct urb 的 指针 ， 在 这 个 函数 被 调用 之 后 ，urb 结构 消失 ， 
驱动 不 能 再 存 取 它 . 


13.3.2.1. 中 断 urb 














函数 usb fill int urb 是 一 个 帮忙 函数 ， 来 正确 初始 化 一 个 urb 来 发 送 给 USB 设备 的 
一 个 中 断 端 点 : 
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void usb fill int urb(struct urb *urb, struct usb device *dev, 
unsigned int pipe, void *transfer buffer, 
int buffer length, usb complete t complete, 
void *context, int interval); 


这 个 函数 包含 许多 参数 : 


struct urb *urb 





指向 要 被 初始 化 的 urb 的 指针 . 


struct usb device *dev 





这 个 urb 要 发 送 到 的 USB 设备 . 


unsigned int pipe 











这 个 urb 要 被 发 送 到 的 USB 设备 的 特定 端点 ， 这 个 值 被 创建 ， 使 用 前 面 提 过 的 
usb sndintpipe 或 者 usb rcvintpipe 函数 . 


void *transfer buffer 





指向 缓冲 的 指针 ， 从 那里 外 出 的 数据 被 获取 或 者 进入 数据 被 接受 .注意 这 不 能 是 一 
个 静态 的 绥 冲 并 且 必 须 使 用 kmalloc 调用 来 创建 . 








int buffer length 
RIKE, W transfer buffer 指针 指 问 . 


usb complete t complete 





指针 ， 指 向 当 这 个 urb 完成 时 被 调用 的 完成 处 理 者 . 





void **context 








指向 数据 块 的 指针 ， 它 被 添加 到 这 个 urb 结构 为 以 后 被 完成 处 理 者 函数 获取 . 


int interval 





这 个 urb 应 当 被 调度 的 间隔 ， 见 之 前 的 struct urb 结构 的 描述 ， 来 找到 这 个 值 
的 正确 单位 . 














13.3.2.2. 块 urb 


Bk urb 被 初始 化 非常 象 中 断 urb， 做 这 个 的 函数 是 usb_fill_bulk_urb， 它 看 来 如 此 : 


void usb fill bulk urb(struct urb *urb, struct usb device *dev, 
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unsigned int pipe, void *transfer buffer, 
int buffer length, usb complete t complete, 
void *context); 





这 个 函数 参数 和 usb fill int urb 函数 的 都 相同 但是， 没有 interval 参数 因为 
bulk urb 没有 间隔 值 ， 请 注意 这 个 unsiged int pipe 变量 必须 被 初始 化 用 对 
usb sndbulkpipe 或 者 usb rcvbulkpipe 函数 的 调用 . 


usb fill int urb 函数 不 设置 urb 中 的 transfer flags 变量 ， 因 此 任何 对 这 个 成 员 的 
修改 不 得 不 由 这 个 驱动 自己 完成 . 








13.3.2.3. 控制 urb 





控制 urb 被 初始 化 几乎 和 块 urb 相同 的 方式 ， 使 用 对 函数 usb fill control urb 的 
调用 : 


void usb fill control urb(struct urb *urb, struct usb device *dev, 
unsigned int pipe, unsigned char *setup packet, 

void *transfer buffer, int buffer length, 

usb complete t complete, void *context); 


函数 参数 和 usb fill bulk urb 函数 都 相同 ， 除 了 有 个 新 参数 ，unsigned char 
*Setup_packet， 它 必须 指向 要 发 送 给 端点 的 setup 报 文 数据 ， 还 有 ，unsigned int 
pipe 变量 必须 被 初始 化 ， 使 用 对 usb_sndctrlpipe 或 者 usb rcvictrlpipe 函数 的 调用 . 














usb fill control urb PAZIUf Ux E. transfer flags 变量 在 urb 中 ， 因 此 任何 对 这 个 成 
员 的 修改 必须 游 驱 动 自己 完成 ， 大 部 分 驱动 不 使 用 这 个 函数 ， 因 为 使 用 在 “USB 传送 不 用 
urb 一 节 中 介绍 的 同步 API 调用 更 简单 ， 








13.3.2.4. 同步 urb 


FEWE, EHE urb 没有 一 个 象 中 断 ， 控 制 ， 和 块 urb 的 初始 化 函数 . 因此 它们 必须 在 
驱动 中 手动” 初始化， 在 它们 可 被 提交 给 USB 核心 之 前 下面 是 一 个 如 何 正 确 初 始 化 这 
类 urb 的 例子 . 它 是 从 konicawc.c 内 核 驱动 中 取得 的 ， 它 位 于 主 内 核 源 码 树 的 
drivers/usb/media 目录 . 














urb->dev = dev; 

urb->context = uvd; 

urb->pipe = usb rcvisocpipe(dev, uvd-^video endp-1); 
urb-^interval = 1; 

urb-^transfer flags = URB ISO ASAP; 

urb-^transfer buffer = cam->sts bufli]; 
urb-»complete = konicawc isoc irq; 
urb-»number of packets = FRAMES PER DESC; 
urb-^transfer buffer length = FRAMES PER DESC; 

for (j-0; j < FRAMES PER DESC; j++) { 
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urb-^iso frame desc[j].offset = j; 


urb-^iso frame desc[j]. length = 1; 
} 


13. 3. 3， 提 交 urb 





—1H, urb 被 正确 地 创建 , 并 且 被 USB 驱动 初始 化 ， 它 已 准备 好 被 提交 给 USB 核心 来 发 送 
出 到 USB 设备 ， 这 通过 调用 函数 usb submit urb 实现 : 


int usb submit urb(struct urb *urb, int mem flags); 





urb 参数 是 一 个 指向 urb 的 指针 ， 它 要 被 发 送 到 设备 . mem flags 参数 等 同 于 传递 给 
kmalloc 调用 的 同样 的 参数 ， 并 且 用 来 告诉 USB 核心 如 何 及 时 分 配 任何 内 存 缓冲 在 这 个 
时 间 . 











在 urb 被 成 功 提交 给 USB 核心 之 后 ， 应 当 从 不 试图 存 取 urb 结构 的 任何 成 员 直 到 完成 
函数 被 调用 . 


因为 函数 usb submit urb 可 被 在 任何 时 候 被 调用 (包括 从 一 个 中 断 上 下 文 )，mem_ flags 
变量 的 指定 必须 正确 ,真正 只 有 3 个 有 效 值 可 用 ， 根 据 何 时 usb submit urb 被 调用 : 


























GFP. ATOMIC 











这 个 值 应 当 被 使 用 无 论 何 时 下 面 的 是 真 : 





。 调 用 者 处 于 一 个 urb 完成 处 理 者 ， 一 个 中 断 ， 一 个 后 半 部 ， 一 个 tasklet, 

或 者 一 个 时 钟 回调 . 

。 调 用 者 持 有 一 个 自 旋 锁 或 者 读 写 锁 ， 注意 如 果 正 持 有 一 个 旗 标 ， 这 个 值 不 必要 . 

e current-^state 不 是 TASK _ RUNNING， 状 态 一 直 是 TASK RUNNING 除非 驱动 已 
自己 改变 current 状态 . 




















GFP. NOIO 











这 个 值 应 当 被 使 用 ， 如 果 驱 动 在 块 1/0 补丁 中 . 它 还 应 当 用 在 所 有 的 存储 类 型 的 
错误 处 理 补 丁 中 . 





GFP_ KERNEL 





这 应 当 用 在 所 有 其 他 的 情况 中 ， 不 属于 之 前 提 到 的 类 别 . 
13. 3. 4， 完 成 urb: 完成 回调 处 理 者 


如 果 对 usb submit urb 的 调用 成 功 ， 传 递 对 urb 的 控制 给 USB 核心 ， 这 个 函数 返回 0; 
否则 ， 一 个 负 错 误 值 被 返回 .如 果 函 数 成 功 ，urb 的 完成 处 理 者 (如 同 被 完成 函数 指针 指 
定 的 ) 被 确切 地 调用 一 次 ， 当 urb 被 完成 ， 当 这 个 函数 被 调用 ，USB 核心 完成 这 个 urb， 

并 且 对 它 的 控制 现在 返回 给 设备 驱动 . 




















RA 3 个 方法 ， 一 个 urb 可 被 结束 并 且 使 完成 函数 被 调用 : 
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。 urb 被 成 功 发 送 给 设备 ， 并 且 设 备 返 回 正 确 的 确认 ， 对 于 一 个 0UT urb， 数 据 被 成 
功 发 送 ， 对 于 一 个 IN urb， 请 求 的 数据 被 成 功 收 到 ， 如 果 发 生 这 个 ，urb 中 的 状 
态 变量 被 设置 为 0. 
。 一 些 错误 连续 发 生 ， 当 发 送 或 者 接受 数据 从 设备 中 . 被 urb 结构 中 的 status 变 
量 中 的 错误 值 所 记录 . 
。 这 个 urb 被 从 USB 核心 去 链 . 这 发 生 在 要 么 当 驱 动 告 知 USB 核心 取消 一 个 已 提 
AW] urb 通过 调用 usb unlink urb 或 者 usb kill urb， 要 和 勾当 设 备 从 系统 中 去 
除 ， 以 及 一 个 urb 已 经 被 提交 给 它 . 









































一 个 如 何 测试 在 一 个 urb 完成 调用 中 不 同 返 回 值 的 例子 在 本 章 稍 后 展示 . 
13.3.5. Wy urb 


为 停止 一 个 已 经 提交 给 USB 核心 的 urb, KÆ usb kill urb 或 者 usb unlink urb 应 
当 被 调用 : 





int usb kill urb(struct urb *urb); 

int usb unlink urb(struct urb *urb); 

The urb parameter for both of these functions is a pointer to the urb that is to be 
canceled. 


当 函 数 是 usb kill urb, XA urb 的 生命 循环 就 停止 了 .这 个 函数 常常 在 设备 从 系统 去 
除 时 被 使 用 ， 在 去 连接 回调 中 . 











对 一 些 有 驱动， 应当 用 usb unlink urb MARKEA USB 核心 去 停止 urb， 这 个 函数 在 返 
回 到 调用 者 之 前 不 等 待 这 个 urb 完全 停止 ,这 对 于 在 中 断 处 理 或 者 持 有 一 个 自 旋 锁 时 停 
1E urb 时 是 有 用 的 ， 因 为 等 待 一 个 urb 完全 停止 需要 USB 核心 有 能 力 使 调用 进程 睡眠 . 
为 了 正确 工作 这 个 函数 要 求 URB ASYNC UNLINK 标志 值 被 设置 在 正 被 要 求 停止 的 urb rp. 


13. 4， 编 写 一 个 USB 驱动 


编写 一 个 USB 设备 驱动 的 方法 类 似 于 一 个 pci 驱动 : 驱动 注册 它 的 驱动 对 象 到 USB F 
系统 并 且 之 后 使 用 供应 商 和 设备 标识 来 告知 是 否 它 的 硬件 已 经 安装 . 


13.4.1. 驱动 支持 什么 设备 
struct usb device id 结构 提供 了 这 个 驱动 支持 的 一 个 不 同类 型 USB 设备 的 列表 ， 这 个 


列表 被 USB 核心 用 来 决定 给 设备 哪个 驱动 ， 并 且 通 过 热 插 拔 脚本 来 决定 哪个 驱动 自动 加 载 ， 
当 特 定 设 备 被 插入 系统 时 . 













































































struct usb device id 结构 定义 有 下 面 的 成 员 : 





ul6 match flags 




















决定 设备 应 当 匹 配 结构 中 下 列 的 哪个 成 员 ， 这 是 一 个 位 成 员 ， 由 在 
include/linux/mod devicetable.h 文件 中 指定 的 不 同 的 USB DEVICE ID MATCH * 
值 所 定义 ， 这 个 成 员 常 常 从 不 直接 设置 ， 但 是 由 USB DEVICE 类 型 宏 来 初始 化 . 
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. ul6 idVendor 


























这 个 设备 的 USB 供应 商 ID， 这 个 数 由 USB 论坛 分 配给 它 的 成 员 并 且 不 能 由 任何 
别 的 构成 . 





. ul6 idProduct 





Tid 


这 个 设备 的 USB 产品 ID. 所 有 的 有 分 配给 他 们 的 供应 商 ID 的 供应 商 可 以 随意 
理 它们 的 产品 ID. 








. ul6 bcdDevice lo 
. ul6 bcdDevice hi 











定义 供应 商 分 配 的 产品 版 本 号 的 高 低 范 围 . bcdDevice hi 值 包括 其 中 ; 它 的 值 是 
最 高 编号 的 设备 号 .这 2 个 值 以 BCD 方式 编码 ， 这 些 变量 ， 连 同 idVendor 和 
idProduct， 用 来 定义 一 个 特定 的 设备 版 本 . 

















. u8 bDeviceClass 
. u8 bDeviceSubClass 
. u8 bDeviceProtocol 


定义 类 ， 子 类 ， 和 设备 协议 ， 分 别 地 .这 些 值 被 USB 论坛 分 配 并 且 定 义 在 USB 规 
范 中 ， 这 些 值 指定 这 个 设备 的 行为 ， 包 括 设备 上 所 有 的 接口 . 


. u8 bInterfaceClass 


. u8 bInterfaceSubClass 
. u8 bInterfaceProtocol 


非常 象 上 面 的 设备 特定 值 ， 这 些 定义 了 类 ， 子 类 ， 和 单个 接口 协议 ， 分 别 地 .， 这些 
值 由 USB 论坛 指定 并 且 定 义 在 USB 规范 中 . 

















kernel ulong t driver info 











这 个 值 不 用 来 匹配 ， 但 是 它 持 有 信息 ， 驱 动 可 用 来 在 USB 驱动 的 探测 回调 函数 区 
分 不 同 的 设备 . 








至 于 PCI 设备 ， 有 几 个 宏 可 用 来 初始 化 这 个 结构 : 


USB DEVICE(vendor, product) 











创建 一 个 struct usb device id， 可 用 来 只 匹配 特定 供应 商 和 产品 ID fH. 这 是 
非常 普遍 用 的 ， 对 于 需要 特定 驱动 的 USB 设备 . 








USB DEVICE VER(vendor, product, lo, hi) 








创建 一 个 struct usb_device_id， 用 来 在 一 个 版 本 范围 中 只 匹配 特定 供应 商 和 产 
品 ID 值 . 
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USB DEVICE INFO(class, subclass, protocol) 




















创建 一 个 struct usb device id， 可 用 来 只 匹配 一 个 特定 类 的 USB 设备 . 





USB INTERFACE INFO(class, subclass, protocol) 











创建 一 个 struct usb device id， 可 用 来 只 匹配 一 个 特定 类 的 USB 接口 . 











对 于 一 个 简单 的 USB 设备 驱动 ， 只 控制 来 自 一 个 供应 商 的 一 个 单一 USB 设备 ，struct 
usb device id 表 可 定义 如 : 





/* table of devices that work with this driver */ 

static struct usb device id skel table [] = { 

( USB DEVICE(USB SKEL VENDOR ID, USB SKEL PRODUCT ID) }, 
{ } /* Terminating entry */ 

}; 
MODULE DEVICE TABLE (usb, skel table); 





至 于 PCI HUKzj, MODULE DEVICE TABLE 宏 有 必要 允许 用 户 空间 工具 来 发 现 这 个 驱动 可 控 
制 什么 设备 ， 但 是 对 于 USB 驱动 ， 字 符 串 usb 必须 是 在 这 个 宏 中 的 第 一 个 值 . 


13. 4. 2， 注 册 一 个 USB 驱动 











所 有 USB 驱动 必须 创建 的 主要 结构 是 struct usb driver. 这 个 结构 必须 被 USB 驱动 填 
充 并 且 包 含 多 个 函数 回调 和 变量 ， 来 向 USB 核心 代码 描述 USB 驱动 : 





struct module *owner 




















指向 这 个 驱动 的 模块 拥有 者 的 指针 .USB 核心 使 用 它 正 确 地 引用 计数 这 个 USB UK 
动 ， 以 便 它 不 被 在 不 合适 的 时 刻 代 载 ， 这 个 变量 应 当 设置 到 THIS MODULE 安 . 








const char *name 


指向 驱动 名 子 的 指针 ， 它 必须 在 内 核 USB 驱动 中 是 唯一 的 并 且 通 常 被 设置 为 和 了 豫 
动 的 模块 名 相同 .， 它 出 现在 sysfs 中 在 /sys/bus/usb/drivers/ 之 下 ， 当 驱动 在 
内 核 中 时 . 


const struct usb device id *id table 


指向 struct usb device id 表 的 指针 ， 包 含 这 个 驱动 可 接受 的 所 有 不 同类 型 USB 
设备 的 列表 ， 如 果 这 个 变量 没 被 设置 ，USB 驱动 中 的 探测 回调 函数 不 会 被 调用 ， 如 
果 你 需要 你 的 驱动 给 系统 中 每 个 USB 设备 一 直 被 调用 ， 创 建 一 个 只 设置 这 个 
driver_info 成 员 的 入 口 项 : 

















static struct usb device id usb ids[] = { 
[. driver info - 42], 


Ü 
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int Ckprobe) (struct usb interface *intf, const struct usb device id *id) 


指向 USB 驱动 中 探测 函数 的 指针 ， 这 个 函数 (在 ”探测 和 去 连接 的 细节 “一 节 中 描述 ) 
被 USB 核心 调用 当 它 认为 它 有 一 个 这 个 驱动 可 处 理 的 struct usb interface. 一 
个 指向 USB 核心 用 来 做 决定 的 struct usb device id 的 指针 也 被 传递 到 这 个 本 
数 . 如 果 这 个 USB 驱动 主张 传递 给 它 的 struct usb_interface， 它 应 当 正 确 地 初 
始 化 设备 并 且 返 回 0， 如 果 驱 动 不 想 主张 这 个 设备 ， 或 者 发 生 一 个 错误 ， 它 应 当 返 
回 一 个 负 错 误 值 . 





























void (*disconnect) (struct usb interface *intf) 


指向 USB 驱动 的 去 连接 函数 的 指针 .这 个 函数 (在 “探测 和 去 连接 的 细节 “一 节 中 描 
述 ) 被 USB 核心 调用 ， 当 struct usb interface 已 被 从 系统 中 清除 或 者 当 驱 动 被 
从 USB CER ZI. 

















为 创建 一 个 值 struct usb driver 结构 ， 只 有 5 个 成 员 需 要 被 初始 化 : 


static struct usb driver skel driver = ( 
.owner - THIS MODULE, 

.name = "skeleton", 

.id table = skel table, 

.probe = skel probe, 

.disconnect = skel disconnect, 


Hi 

















struct usb driver 确实 包含 更 多 儿 个 回调 ， 它 们 通常 不 经 常用 到 ， 并 且 不 被 要 求 使 USB 
驱动 正确 工作 : 























int (*ioctl) (struct usb interface *intf, unsigned int code, void *buf) 





指向 USB 驱动 的 ioctl 函数 的 指针 ， 如 果 它 出 现 ， 在 用 户 空间 程序 对 一 个 关联 到 
USB 设备 的 usbfs 文件 系统 设备 入 口 ， 做 一 个 ioctl 调用 时 被 调用 .实际 上 ， 只 
有 USB 集线器 驱动 使 用 这 个 ioct1， 因 为 没有 其 他 的 真实 需要 对 于 任何 其 他 USB 
驱动 要 使 用 . 














int Cksuspend) (struct usb interface *intf, u32 state) 





指向 USB 驱动 中 的 悬挂 函数 的 指针 .， 当 设备 要 被 USB 核心 悬挂 时 被 调用 . 
int (kresume) (struct usb interface *intf) 
指向 USB 驱动 中 的 恢复 函数 的 指针 ， 当 设备 正 被 USB 核心 恢复 时 被 调用 . 


为 注册 struct usb driver 到 USB 核心 ， 一 个 调用 usb register driver 带 一 个 指向 
struct usb driver 的 指针 ， 传 统 上 在 USB 驱动 的 模块 初始 化 代码 做 这 个 : 

static int init usb skel init(void) 

{ 


int result; 
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/* register this driver with the USB subsystem */ 
result = usb register(&skel driver); 
if (result) 
err( usb register failed. Error number %d”, result); 
return result; 


} 








当 USB IKSIR EN, struct usb driver 需要 从 内 核 注销 . 使 用 对 
usb deregister driver 的 调用 做 这 个 . 当 这 个 调用 发 生 ， 任 何 当 前 绑 定 到 这 个 驱动 的 
USB 接口 被 去 连接 ， 并 且 去 连接 函数 为 它们 而 被 调用 . 








static void exit usb skel exit (void) 

{ 
/* deregister this driver with the USB subsystem */ 
usb deregister(&skel driver); 


} 
13.4.2.1. 探测 和 去 连接 的 细节 


在 之 前 章节 描述 的 struct usb driver 结构 中 ， 驱 动 指定 2 个 USB 核心 在 合适 的 时 候 
调用 的 函数 .探测 函数 被 调用 ， 当 设备 被 安装 时 ， cu c Mode 探测 
函数 应 当 进 行 检查 传递 给 它 的 关于 设备 的 信息 ， 并 且 决 定 是 否 驱 动 真正 合适 那个 设备 .去 
连接 函数 被 调用 当 驱 动 应 当 不 再 控制 设备 ， 由 于 某 些 理由 ， 并 且 可 做 清理 . 







































































探测 和 去 连接 函数 回调 都 在 USB 集线器 内 核 线程 上 下 文中 被 调用 ， 因 此 它们 中 睡眠 是 合 
法 的 . 但是， 建议 如 果 有 可 能 大 部 分 工作 应 当 在 设备 被 用 户 打 开 时 完成 ， 为 了 保持 USB 
探测 时 间 为 最 小 ， 这 是 因为 USB 核心 处 理 USB 设备 的 添加 和 去 除 在 一 个 线程 中 ， 因 此 任 
何 慢 设备 驱动 可 导致 USB 设备 探测 时 间 慢 下 来 并 且 用 户 可 注意 到 . 























在 探测 函数 回调 中 ，USB 驱动 应 当初 始 化 任何 它 可 能 使 用 来 管理 USB 设备 的 本 地 结构 . 
它 还 应 当 保 存 任何 它 需 要 的 关于 设备 的 信息 到 本 地 结构 ， 因 为 在 此 时 做 这 些 通常 更 容易 . 
作为 一 个 例子 ，USB 驱动 常常 想 为 设备 探测 端点 地 址 和 缓冲 大 小 是 什么 ， 因 为 和 设备 通讯 
需要 它们 . 这 里 是 一 些 例子 代码 ， 它 探测 BULK 类 型 的 IN 和 OUT 端点 ， 并 且 保 存 一 些 
关于 它们 的 信息 在 一 个 本 地 设备 结构 中 : 









































/* set up the endpoint information */ 

/* use only the first bulk-in and bulk-out endpoints */ 
iface desc = interface-?cur altsetting; 

for (i = 0; i < iface desc-^desc. bNumEndpoints; ++i) 


{ 


endpoint = &iface desc-^endpoint[i]. desc; 

if (!dev-^bulk in endpointAddr && 
(endpoint-»bEndpointAddress & USB DIR IN) && 
((endpoint-^bmAttributes & USB ENDPOINT XFERTYPE MASK) 


== USB ENDPOINT XFER BULK)) { /* we found a bulk in endpoint */ 
buffer size = endpoint-^wMaxPacketSize; 
dev->bulk in size = buffer size; 
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dev-»bulk in endpointAddr = endpoint-»bEndpointAddress; 
dev bulk in buffer = kmalloc(buffer size, GFP KERNEL); 
if (!dev— bulk in buffer) ( 

err (Could not allocate bulk in buffer”); 


goto error 


) 


if (!dev-^bulk out endpointAddr && 

! (endpoint—^»bEndpointAddress & USB DIR IN) && 
((endpoint-^bmAttributes & USB ENDPOINT XFERTYPE MASK) 

== USB ENDPOINT XFER BULK)) { /* we found a bulk out endpoint */ 

dev-»bulk out endpointAddr = endpoint-»bEndpointAddress; 


j 
j 


if (!(dev- bulk in endpointAddr && dev->bulk out endpointAddr)) 


{ 


err ("Could not find both bulk-in and bulk-out endpoints”); 


goto error; 


} 








这 块 代码 首先 循环 在 这 个 接口 中 出 现 的 每 个 端点 ， 并 且 分 配 一 个 本 地 指针 到 端点 结构 来 使 


它 之 后 容易 存 取 : 


for (i = 0; i < iface desc-^desc. bNumEndpoints; ++i) { 


endpoint = &iface desc-^endpoint[i]. desc; 


那么 ， 在 我 们 有 了 一 个 端点 后 ， 我 们 还 没有 发 现 一 个 块 IN 类 型 端点 ， 我 们 看 是 否 这 个 端 
点 的 方向 是 IN， 那 个 可 被 测试 通过 看 是 否 位 掩 码 USB_DIR_IN 被 包含 在 





bEndpointAddress 端点 变 


量 中 ， 如 有 果 这 是 真 ， 我 们 决 











23 BLZ 
EER 





端点 类 型 是 块 ， 通 过 使 用 














USB ENDPOINT XFERTYPE MASK 位 撼 码 首先 掩 去 bmAttributes 变量 ， 并 且 接 着 检查 是 否 
它 匹 配 值 USB_ENDPOINT XFER BULK: 


if (!dev-^bulk in endpointAddr && 
(endpoint-»bEndpointAddress & 


USB DIR IN) && 


(Cendpoint-»bmAttributes & USB ENDPOINT XFERTYPE MASK)-- USB ENDPOINT XFER BULK)) 


{ 























如 果 所 有 的 这 些 检查 都 是 真 ， 驱 动 知道 



































类 型 








它 发 现 了 正确 的 端 





构 中 ， 它 后 来 将 需要 这 些 信息 和 它 通 讯 . 








/* we found a bulk in endpoint */ 
buffer size = endpoint-^wMaxPacket 
dev-»bulk in size = buffer size; 


Size; 


WA 


dev-»bulk in endpointAddr = endpoint->bEndpointAddress; 
dev->bulk in buffer = kmalloc(buffer size, GFP KERNEL); 


if (!dev-^bulk in buffer) 

i 
err ("Could not allocate bu 
goto error; 


lk in buffer^); 


300 


tH 





可 保存 关于 妆 





点 的 信息 到 本 地 结 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] D O O 0O IO [] O Linux[] D] E] UE [] L] 


Www.linuxidc.com 


zo 0. 0 *. - 7, UNUA DEVICE DRIVERS} SRD EDITION © o0 o =o oono 
因为 USB 驱动 需要 获取 在 设备 的 生命 周期 后 期 和 这 个 struct usb interface 关联 的 本 
žE, PRAE usb set intfdata 可 被 调用 : 








/* save our data pointer in this interface device */ 
usb set intfdata(interface, dev); 





这 个 函数 接受 一 个 指向 任何 数据 类 型 的 指针 ， 并 且 保 存 它 到 struct usb interface 结构 
为 后 面 的 存 取 为 获取 这 个 数据 ， 函 数 usb get intfdata 应 当 被 调用 : 





struct usb skel *dev; 

struct usb interface *interface; 
int subminor; 

int retval = 0; 


subminor = iminor (inode) ; 
interface = usb find interface (&skel_ driver, subminor); 
if (linterface) 
{ 
err (“%s - error, can't find device for minor %d”, 
J FUNCTION , subminor); 
retval = -ENODEV; 
goto exit; 


} 


dev = usb get intfdata(interface); 
if (!dev) 
{ 

retval = -ENODEV; 

goto exit; 


} 


usb get intfdata 常常 被 调用 ， 在 USB 驱动 的 open 函数 和 在 去 连接 函数 ,感谢 这 2 
个 函数 ，USB 驱动 不 需要 保持 一 个 静态 指针 数组 来 保存 单个 设备 结构 为 系统 中 所 有 当前 的 
设备 ， 对 设备 信息 的 非 直接 引用 允许 一 个 无 限 数目 的 设备 被 任何 USB. 驱动 支持 . 














如 果 USB 驱动 没有 和 另 一 种 处 理 用 户 和 设备 交互 的 子 系统 (例如 input，tty，video， 等 
待 ) 关联 ， 驱 动 可 使 用 USB 主编 号 为 了 使 用 传统 的 和 用 户 空间 之 间 的 字符 驱动 接口 。 为 此 ， 
USB 驱动 必须 在 探测 函数 中 调用 usb register dev 函数 ， 当 它 想 注册 一 个 设备 到 USB 

核心 ， 确 认 设 备 和 驱动 处 于 正确 的 状态 ， 来 处 理 一 个 想 在 调用 这 个 函数 时 尽快 存 取 这 个 设 









































/* we can register the device now, as it is ready */ 
retval = usb register dev(interface, &skel class); 
if (retval) 
{ 
/* something prevented us from registering this driver */ 
err(/Not able to get a minor for this device. ^); 
usb set intfdata(interface, NULL); 
goto error; 
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usb register dev 函数 要 求 一 个 指向 struct usb interface 的 指针 和 指向 struct 
usb class driver 的 指针 . struct -usb class driver 用 来 定义 许多 不 同 的 参数 ， 当 注 
册 一 个 次 编号 USB 驱动 要 USB 核心 知道 这 些 参数 ， 这 个 结构 包括 下 列 变量 :. 











char *name 


sysfs 用 来 描述 设备 的 名 子 . 一 个 前 导 路 径 名 ， 如 果 存 在 ， 只 用 在 devfs 并 且 本 
书 不 涉及 如果 设 备 号 需要 在 这 个 名 子 中 ， 字 符 %d 应 当 在 名 子 串 中 .例如 ， 位 创 
建 devfs 名 子 usb/fool 和 sysfs 类 名 fool， 名 子 串 应 当 设 置 为 usb/foo%d. 

















struct file operations *fops; 





指向 struct file operations 的 结构 的 指针 ， 这 个 驱动 已 定义 来 注册 为 字符 设备 . 
这 个 结构 的 更 多 信息 见 第 3 3. 








mode t mode; 











给 这 个 驱动 的 要 被 创建 的 devfs 文件 的 模式 ; 否则 不 使 用 .这 个 变量 的 典型 设置 
是 值 S_IRUSR 和 值 S_IWUSR 的 结合 ， 它 将 只 提供 这 个 设备 文件 的 拥有 者 读 和 写 
FR. 




















int minor base; 





这 是 给 这 个 驱动 安排 的 次 编号 的 开始 .所 有 和 这 个 驱动 相关 的 设备 被 创建 为 从 这 个 
值 开 始 的 唯一 的 ， 递 增 的 次 编号 ， 只 有 16 个 设备 被 允许 在 任何 时 刻 和 这 个 驱动 关 
联 ， 除 非 CONFIG USB DYNAMIC MINORS 配置 选项 被 打开 . 如 果 这 样 ， 忽 略 这 个 变 
量 ， 并 且 这 个 设备 的 所 有 的 次 编号 被 以 先 来 先 服务 的 方式 分 配 . 建议 打开 了 这 个 选 
项 的 系统 使 用 一 个 程序 例如 udev 来 关联 系统 中 的 设备 节点 ， 因 为 一 个 静态 的 
/dev 树 不 会 正确 工作 . 






































当 USB 设备 断 开 ， 所 有 的 关联 到 这 个 设备 的 资源 应 当 被 清除 ， 如 果 可 能 .在 此 时 ， 如 果 
usb register dev 已 被 在 探测 函数 中 调用 来 分 配 一 个 USB 设备 的 次 编写， 函数 
usb deregister dev 必须 被 调用 来 将 次 编号 给 回 USB 核心 . 























在 断 开 函数 中 ， 也 重要 的 是 从 接口 获取 之 前 调用 usb set intfdata 所 设置 的 数据 ， 接 着 
设置 数据 指针 在 struct us interface 结构 为 NULL 来 阻止 在 不 正确 存 取 数据 中 的 任何 
进一步 的 错误 . 





static void skel disconnect(struct usb interface *interface) 
{ 
struct usb skel *dev; 
int minor = interface-Pminor; 
/* prevent skel open() from racing skel disconnect( ) */ 
lock kernel 0); 


dev = usb get _intfdata (interface) ; 

usb set intfdata(interface, NULL); 

/* give back our minor */ 

usb deregister dev(interface, &skel class); 
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unlock kernel() ; /* decrement our usage count */ 


kref put(&dev-^kref, skel delete); 
info("USB Skeleton #%d now disconnected”, minor); 


} 


注意 在 之 前 代码 片段 中 的 调用 lock kernel. 它 获 取 了 bigkernel 8i, DAZ-F 
disconnect 回调 不 会 遇 到 一 个 竞争 情况 ， 在 使 用 open 调用 试图 获取 一 个 指 问 正确 接口 
数据 结构 的 指针 .因为 open 在 bigkernel 锁 获 取 情 况 下 被 调用 ， 如 果 disconnect 也 
获取 同一 个 锁 ， 只 有 驱动 的 一 部 分 可 存 取 并 且 接 着 设置 接口 数据 指针 . 























就 在 disconnect 函数 为 一 个 USB 设备 被 调用 ， 所 有 的 当前 在 被 传送 的 urb 可 被 USB 
核心 取消 ， 因 此 驱动 不 必 明 确 为 这 些 urb 调用 usb kill urb. 如 果 一 个 驱动 试图 提交 一 
个 urb 给 USB 设备 ， 在 调用 usb submit urb 被 断 开 之 后 ， 这 个 任务 会 失败 ， 错 误 值 
为 -EPIPE. 


13. 4. 3， 提 交 和 控制 一 个 urb 


当 驱 动 有 数据 发 送 到 USB 设备 (如 同 在 驱动 的 write 函数 中 发 生 的 )， 一 个 urb 必须 被 
分 配 来 传送 数据 到 设备 . 

















urb = usb alloc urb(0, GFP KERNEL); 
if (lurb) 
{ 

retval = -ENOMEM ; 

goto error; 


} 


在 urb 被 成 功 分 配 后 ， 一 个 DM 缓冲 也 应 当 被 创建 来 发 送 数 据 到 设备 以 最 有 效 的 方式 ， 
并 且 被 传递 到 驱动 的 数据 应 当 被 拷贝 到 缓冲 : 





buf = usb buffer alloc (dev->udev, count, GFP KERNEL, &urb-^transfer dma); 
if (!buf) 
{ 
retval = -ENOMEM; 
goto error; 
} 
if (copy from user (buf, user buffer, count)) 
{ 
retval = -EFAULT; 
goto error; 


} 











应 当 数 据 被 正确 地 从 用 户 空间 拷贝 到 本 地 缓冲 ，urb 在 它 可 被 提交 给 USB 核心 之 前 必须 
被 正确 初始 化 : 




















/* initialize the urb properly */ 
usb fill bulk urb (urb, dev->udev, 
usb sndbulkpipe (dev->udev, dev->bulk out endpointAddr), 
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buf, count, skel write bulk callback, dev); 
urb-^transfer flags |- URB NO TRANSFER DMA MAP; 











现在 urb 被 正确 分 配 ， 数 据 被 正确 揽 贝 ， 并 且 urb 被 正确 初始 化 ， 它 可 被 提交 给 USB 
核心 来 传递 给 设备 . 














/* send the data out the bulk port */ 

retval = usb submit urb (urb, GFP KERNEL); 

if (retval) 

{ 
err(/$s - failed submitting write urb, error %d”, | FUNCTION , retval); 
goto error; 


} 


在 urb 被 成 功 传递 到 USB. 设备 (或 者 在 传输 中 发 生 了 什么 )，urb 回调 被 USB 核心 调用 . 
在 我 们 的 例子 中 ， 我 们 初始 化 urb 来 指向 函数 skel write bulk callback, 3f HAKI 
被 调用 的 函数 : 





static void skel write bulk callback(struct urb x*urb, struct pt regs *regs) 
{ 

/* sync/async unlink faults aren't errors */ 

if (urb-^status && 


!(urb-^status == -ENOENT || 
urb-^status == -ECONNRESET || 
urb-^status == -ESHUTDOWN)) { 
dbg (”%s — nonzero write bulk status received: %d”, 
— FUNCTION , urb-status); 
} 


/* free up our allocated buffer */ 
usb buffer free (urb->dev, urb-^transfer buffer length, 
urb-^transfer buffer, urb-^transfer dma); 


} 





回调 函数 做 的 第 一 件 事 是 检查 urb 的 状态 来 决定 是 否 这 个 urb 成 功 完成 或 没有 ， 错 误 值 ， 
-ENOENT, -ECONNRESET, jl -ESHUTDOWN 不 是 真正 的 传送 错误 ， 只 是 报告 伴随 成 功 传 送 的 
情况 ，( 见 urb 的 可 能 错误 的 列表 ， 在 “结构 struct urb” 一 节 中 详细 列 出 ). 接着 这 个 回 
调 释 放 安 排 给 这 个 urb 传送 的 已 分 配 的 缓冲 . 
































在 urb 的 回调 函数 在 运行 时 另 一 个 urb 被 提交 给 设备 是 普遍 的 ， 当 流 数据 到 设备 时 是 有 
用 的 ， 记 住 urb 回调 是 在 中 断 上 下 文 运 行 ， 因 此 它 不 应 当做 任何 内 存 分 配 ， 持 有 任何 旗 
标 ， 或 者 任何 可 导致 进程 睡眠 的 事情 ， 当 从 回调 中 提交 urb, 使 用 GFP ATOMIC 标志 来 告 
知 USB 核心 不 要 睡眠 ， 如 果 它 需要 分 配 新 内 存 块 在 提交 过 程 中 . 


13.5. 无 urb 的 USB 传送 


有 时 一 个 USB 驱动 必须 经 过 所 有 的 步骤 创建 一 个 struct urb， 初 始 化 它 ， 再 等 待 urb 
完成 函数 运行 ， 只 是 要 发 送 或 者 接受 一 些 和 HB USB 数据 ， 有 2 个 函数 用 来 提供 一 个 简 
单 的 接口 . 
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13.5.1. usb bulk msg 接口 





usb bulk msg 创建 一 个 USB E urb 并 且 发 送 它 到 特定 的 设备 ， 接 着 在 返回 到 调用 者 之 
前 等 待 完 成 ， 它 定义 为 : 





int usb bulk msg(struct usb device *usb dev, unsigned int pipe, 
void *data, int len, int *actual length, 
int timeout); 


这 个 函数 的 参数 是 : 
struct usb device *usb dev 


unsigned int pipe 














这 个 块 消息 要 发 送 到 的 USB 设备 的 特定 端点 .这 个 值 被 创建 ， 使 用 一 个 对 
usb sndbulkpipe 或 者 usb rcvbulkpipe 的 调用 . 


void **data 





如 果 这 是 一 个 OUT 端点 ， 指 向 要 发 送 到 设备 的 数据 的 指针 ， 如 果 是 一 个 IN 端点 ， 
这 是 一 个 在 被 从 设备 读 出 后 数据 应 当 被 放置 的 地 方 的 指针 . 





int len 
被 data 参数 指向 的 缓冲 的 长 度 


int *actual length 








指向 函数 放置 真实 字 节 数 的 指针 ， 这 些 字 节 要 人 么 被 发 送 到 设备 要 么 从 设备 中 获取 ， 
根据 端点 方向 . 


int timeout 





时 间 量 ， 以 咬 叶 计 ， 应 当 在 超时 前 等 待 的 ， 如果 这 个 值 是 0， 函 数 永 远 等 待 消息 完 
成 . 








如 果 函 数 成 功 ， 返 回 值 是 0; 否则 ， 一 个 负 错 误 值 被 返回 ， 这 错误 号 匹配 之 前 在 "urb 结构 
“一 节 中 描述 的 错误 号 ， 如 果 成 功 ，actual_length 参数 包含 被 传送 或 从 消 妃 中 获取 的 字 
TC 





下 面 是 一 个 使 用 这 个 函数 调用 的 例子 : 


/* do a blocking bulk read to get data from the device */ 
retval = usb bulk msg(dev-^udev, 
usb rcvbulkpipe(dev-^»udev, dev-^»bulk in endpointAddr), 


305 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] O O O 0O IO [] O Linux[] D] E] UE [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
dev-?»bulk in buffer, 
min(dev->bulk in size, count), 

&count, HZ*10); 


/* if the read was successful, copy the data to user space */ 
if (!retval) ( 
if (copy to user(buffer, dev->bulk in buffer, count)) 
retval = -EFAULT; 
else 
retval = count; 


} 


oo F 简单 的 从 一 个 IN 端点 的 块 读 ， 如 果 读 取 成 功 ， 数 据 接着 被 拷贝 到 用 
空间 . mud. USB Witcher 


usb bulk msg 函数 不 能 被 从 中 断 上 下 文 调用 ， 或 者 持 有 一 个 自 旋 锁 ， 还 有 ， POSU 
能 被 任何 其 他 函数 取消 ， 因 此 当 使 用 它 时 小 心 ; 确认 你 的 驱动 的 去 连接 知道 足够 多 来 等 
WHER, ERE H ORMA AP NRA. 




















13.5.2. usb control msg 接口 





usb control msg 函数 就 像 usb bulk msg 函数 ， 除 了 它 允 许 一 个 驱动 发 送 和 结束 USB 
控制 信息 : 





int usb control msg(struct usb device *dev, unsigned int pipe, u8 request, u8 
requesttype, ul6 value,  ul6 index, void *data, ul6 size, int timeout); 


这 个 函数 的 参数 几乎 和 usb bulk msg 的 相同 ， 有 几 个 这 样 的 不 同 : 


struct usb device *dev 





指向 发 送 控制 消息 去 的 USB 设备 的 指针 . 


unsigned int pipe 








控制 消息 要 发 送 到 的 USB 设备 的 特定 端点 ， 这 个 值 在 usb sndctrlpipe 或 者 
usb rcvctrlpipe AAUP gs. 








. u8 request 

这 个 控制 消息 的 USB 请 求 值 . 
| u8 requesttype 

这 个 控制 消息 的 USB 请 求 类 型 . 
. ul6 value 


这 个 控制 消息 的 USB 消息 值 . 
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. ul6 index 


这 个 控制 消息 的 USB 消息 索引 值 . 


void **data 





如 果 是 一 个 OUT 端点 ， 是 一 个 指向 要 发 送 到 设备 的 数据 的 指针 ， 如 果 是 一 个 IN 
端点 ， 是 一 个 在 被 从 设备 读 取 后 数据 被 放置 的 地 方 的 指针 . 


. ul6 size 
被 data 参数 指向 的 缓冲 的 大 小 ， 


int timeout 








时 间 量 ， 以 咬 蚊 计 ， 应 当 在 超时 前 等 待 的 ， 如 果 这 个 值 是 0， 这 个 函数 将 等 待 消息 
结束 . 





如 果 函 数 是 成 功 的 ， 它 返回 被 传送 到 或 从 这 个 设备 的 字 节 数 ， 如 果 它 不 成 功 ， 它 返回 一 个 
负 错 误 码 . 


参数 request，requesttype，value， 和 index 都 直接 映射 到 USB 规范 给 一 个 USB 控 
制 消息 如 何 被 定义 ， 对 于 更 多 的 关于 这 些 参数 的 有 效 值 的 信息 和 它们 如 何 被 使 用 ， 见 USB 
规范 的 第 x. 











象 usb bulk msg KZ, PŽ usb control msg 不 能 被 从 中 断 上 下 文 或 者 持 有 自 旋 锁 中 
被 调用 .还 有 ， 这 个 函数 不 能 被 任何 其 他 函数 取消 ， 所 以 当 使 用 它 时 要 小 心 ; 确认 你 的 驱 
动 的 disconnect 函数 了 解 足够 多 ， 在 允许 它 自 己 被 从 内 存 卸 载 之 前 完成 等 待 调用 . 


13. 5. 3， 使 用 USB 数据 函数 


USB 核心 中 的 几 个 帮忙 函数 可 用 来 从 所 有 的 USB. 设备 中 存 取 标 准 信 息 ， 这 些 函 数 不 能 从 
中 断 上 下 文 或 者 持 有 上 自 旋 锁 时 调用 . 





























函数 usb get descriptor 获取 指定 的 USB 描述 符 从 特定 的 设备 ， 这 个 函数 被 定义 为 : 


int usb get descriptor(struct usb device *dev, unsigned char type, unsigned 
char index, void *buf, int size); 





这 个 函数 可 被 一 个 USB 驱动 用 来 从 struct usb device 结构 中 ， 获 取 任 何 还 没有 在 
struct usb device 和 struct usb interface 结构 中 出 现 的 设备 描述 符 ， 例 如 声音 描述 
符 或 者 其 他 类 的 特定 消息 ， 这 个 函数 的 参数 是 : 











struct usb device *usb dev 





指向 应 当 从 中 获取 描述 符 的 USB. 设备 的 指针 
unsigned char type 
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描述 符 类 型 .这 个 类 型 在 USB 规范 中 描述 ， 并 且 是 下 列 类 型 之 一 : 





USB DT DEVICE USB DT CONFIG USB DT STRING USB DT INTERFACE USB DT ENDPOINT 

USB DT DEVICE QUALIFIER USB DT OTHER SPEED CONFIG USB DT INTERFACE POWER USB DT OTG 
USB DT DEBUG USB DT INTERFACE ASSOCIATION USB DT CS DEVICE USB DT CS CONFIG 

USB DT CS STRING USB DT CS INTERFACE USB DT CS ENDPOINT 





unsigned char index 


应 当 从 设备 获取 的 描述 符 的 数目 . 





void *buf 


你 拷贝 描述 符 到 的 缓冲 的 指针 . 





int size 
由 buf 变量 指向 的 内 存 的 大 小 . 


如 果 这 个 函数 成 功 ， 它 返回 从 设备 读 取 的 字 节 数 ， 否 则 ， 它 返回 由 它 所 调用 的 底层 函数 
usb control msg 所 返回 的 一 个 负 错 误 值 . 





usb get descripter 调用 的 一 项 最 普遍 的 用 法 是 从 USB 设备 获取 一 个 字符 串 ， 因 为 这 个 
是 非常 普遍 ， 有 一 个 帮忙 函数 称 为 usb get string: 


int usb get string(struct usb device *dev, unsigned short langid, unsigned char index, 
void *buf, int size); 


如 果 成 功 ， 这 个 函数 返回 设备 收 到 的 给 这 个 字符 串 的 字 节 数 ， 和 否则 ， 它 返回 一 个 由 这 个 函 
数 调用 的 底层 函数 usb. control msg 返回 的 负 错 误 值 . 








如 果 这 个 函数 成 功 ， 它 返回 一 个 以 UTF-16LE 格式 编码 的 字符 串 (Unicode，16 位 每 字符 ， 
小 端 字 节 序 ) 在 buf 参数 指向 的 缓冲 中 ， 因 为 这 个 格式 不 是 非常 有 用 ， 有 另 一 个 函数 ， 称 
为 usb_string， 它 返回 一 个 从 一 个 USB 设备 读 来 的 字符 串 ， 并 且 已 经 转换 为 一 个 ISO 
8859-1 格式 字符 串 ， 这 个 字符 集 是 一 个 8 位 的 UICODE 的 子 集 ， 并 且 是 最 普遍 的 英文 和 
其 他 西欧 字符 串 格 式 ， 因 为 这 是 USB 设备 的 字符 串 的 典型 格式 ， 建 议 usb string 函数 
来 替代 usb get string Až. 


13.6. 快速 参考 


KT ARENA : 




















#include <linux/usb. h> 
所 有 和 USB 相关 的 头 文 件 ， 它 必须 被 所 有 的 USB 设备 驱动 包含 . 


struct usb driver; 
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描述 USB 驱动 的 结构 . 








struct usb device id; 





描述 这 个 驱动 支持 的 USB 设备 的 结构 . 





int usb register(struct usb driver *d); 
用 来 从 USB 核心 注册 和 注销 一 个 USB 张 动 的 函数 

struct usb device *interface to usbdev(struct usb interface *intf); 
从 struct usb interface 获取 控制 struct usb device *. 

struct usb device; 
控制 完整 USB 设备 的 结构 . 


struct usb interface; 





主 USB 设备 结构 ， 所 有 的 USB 驱动 用 来 和 USB 核心 通讯 的 . 


void usb set intfdata(struct usb interface *intf, void *data); 
void *usb get intfdata(struct usb interface *intf); 


设置 和 获取 在 struct usb interface 中 的 私有 数据 指针 部 分 的 函数 . 


struct usb class driver; 











描述 USB 驱动 的 一 个 结构 ， 这 个 驱动 要 使 用 USB 主编 号 来 和 用 户 空 间 程序 通讯 . 


int usb register dev(struct usb interface *intf, struct usb class driver 
*class driver); 

void usb deregister dev(struct usb interface *intf, struct usb class driver 
*class driver); 





用 来 注册 和 注销 一 个 特定 struct usb interface * 结构 到 struct 
usb class driver 结构 的 函数 . 


struct urb; 
描述 一 个 USB 数据 传输 的 结构 . 


struct urb *usb alloc urb(int iso packets, int mem flags); 
void usb free urb(struct urb *urb); 





用 来 创建 和 销毁 一 个 struct usb urb#k 的 函数 . 
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int usb submit urb(struct urb *urb, int mem flags); 
int usb kill urb(struct urb *urb); 
int usb unlink urb(struct urb *urb); 


用 来 启动 和 停止 一 个 USB 数据 传输 的 函数 . 


void usb fill int urb(struct urb *urb, struct usb device *dev, unsigned int pipe, void 
*transfer buffer, int buffer length, usb complete t complete, void *context, int interval); 


void usb fill bulk urb(struct urb *urb, struct usb device *dev, unsigned int pipe, void 
*transfer buffer, int buffer length, usb complete t complete, void *context); 





void usb fill control urb(struct urb *urb, struct usb device *dev, unsigned int pipe, 
unsigned char *setup packet, void *transfer buffer, int buffer length, usb complete t 
complete, void *context); 


用 来 在 被 提交 给 USB 核心 之 前 初始 化 一 个 struct urb 的 函数 . 





int usb bulk msg(struct usb device *usb dev, unsigned int pipe, void *data, int len, int 
*actual length, int timeout); 


int usb control msg(struct usb device *dev, unsigned int pipe, u8 request, u8 
requesttype, ul6 value,  ul6 index, void *data, ul6 size, int timeout); 





用 来 发 送 和 接受 USB 数据 的 函数 ， 不 必 使 用 一 个 struct urb. 
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第 14 章 Linux 设备 模型 


在 2.5 开发 循环 中 一 个 声明 的 目标 是 为 内 核 创建 一 个 统一 的 设备 模型 .之 前 的 内 核 没 有 单一 的 数据 结 
构 ， 使 它们 可 以 来 获取 关于 系统 如 何 整合 的 信息 .尽管 缺乏 信息 ， 有 时 事情 也 进行 的 不 错 ， 新 系统 ， 人 带 
有 它们 的 更 加 复杂 的 技术 并 且 需 要 支持 诸如 电源 管理 等 特性 ， 但 是 ， 清 楚 地 要 求 需要 一 个 通用 的 描述 系 
统 结构 的 抽象 . 


























































































































2.6 设备 模型 提供 了 这 个 抽象 ， 现 在 它 用 在 内 核 来 文 持 广 泛 的 任务 ， 包 括 : 





电源 管理 和 系统 关机 


























这 些 需 要 一 个 对 系统 的 结构 的 理解 例如， 一 个 USB 宿主 适配器 不 可 能 被 关闭 ， 在 处 理 所 有 的 
连接 到 这 个 适配器 的 设备 之 前 ， 这 个 设备 模型 使 能 了 一 个 按照 正确 顺序 的 系统 硬件 的 遍历 . 














与 用 户 空间 的 通讯 











sysfs 虚拟 文件 系统 的 实现 被 紧密 地 捆绑 进 设备 模型 ， 并 且 暴 露 它 所 代表 的 结构 ， 关 于 系统 到 
用 户 空间 的 信息 提供 和 改变 操作 参数 的 旋 纽 正 越 来 越 多 地 通过 sysfs 和 通过 设备 模型 来 完成 . 























可 热 插 拔 设备 












































计算 机 硬件 正 更 多 地 动态 变化 ; 外 设 可 因 用 户 的 一 时 念头 而 进出 ， 在 内 核 中 使 用 的 来 处 理 和 ( 特 
别 的 ) 与 用 户 空 间 关 于 设备 插入 和 拔 出 的 通讯 ， 是 由 设备 模型 来 管理 ， 


















































系统 的 许多 部 分 对 设备 如 何 连接 没有 兴趣 ， 但 是 它们 需要 知道 什么 类 型 的 设备 可 用 .设备 模型 
包括 一 个 机 制 来 分 配 设备 给 类 别 ， 它 在 一 个 更 高 的 功能 性 的 级 别 描述 了 这 些 设备 ， 并 且 人 允许 它 
们 从 用 户 空间 被 发 现 . 





















































对 象 生 命 期 














许多 上 面 描述 的 功能 ， 包 括 热 揪 拔 支持 和 sysfs， 使 在 内 核 中 创建 和 操作 对 象 复杂 了 .设备 模 
型 的 实现 要 求 创建 一 套 机 制 来 处 理 对 象 生命 期 ， 它 们 之 间 的 关系 ， 和 它们 在 用 户 空间 的 表示 





















































Linux 设备 模型 是 一 个 复杂 的 数据 结构 ， 例 如， 考虑 图 设备 模型 的 一 小 部 分 ， 它 展示 了 (用 简单 的 形式 ) 
和 USB 鼠标 关联 的 设备 模型 结构 的 微小 片段 ， 图 中 心 的 下 方 ， 我 们 看 到 核心 设备” 树 ， 展 示 了 鼠标 如 
何 连接 到 系统 . “bus” 树 跟踪 什么 连接 到 每 个 总 线 ， 而 在 “classes” 下 的 子 树 涉及 设备 提供 的 功能 ， 不 
管 它 们 是 如 何 连接 的 .设备 模型 树 即便 在 一 个 简单 的 系统 中 也 包含 几 百 个 节点 ， 如 同 在 图 中 展示 的 那些 ; 
它 是 一 个 难于 整个 呈现 的 数据 结构 


















































对 大 部 分 ，Linux 设备 模型 代码 负责 所 有 这 些 方 面 ， 而 不 强加 自己 于 驱动 作者 之 上 ， 它 大 部 分 位 于 后 面 ; 
和 设备 模型 的 直接 交互 通常 由 总 线 一 级 的 风 辑 和 各 种 其 他 的 内 核子 系统 处 理 .， 结果 ， 许 多 驱动 作者 会 完 
全 忽略 设备 模型 ， 并 且 信 任 它 来 照顾 它 自 己 . 


















































有 时 ， 但 是 ， 理 解 设备 模型 是 一 个 好 事情 .有 时 设备 模型 从 其 他 的 层 后 面 外 出 来 ; 例如 ， 通 用 的 DMA 
代码 ( 我 们 在 第 15 章 遇 到 ) 使 用 struct device. 你 可 能 想 使 用 一 些 由 设备 模型 提供 的 能 力 ， 例 如 引 
用 计数 和 由 kobjects 提供 的 相关 特色 . 通过 sysfs 和 用 户 空 间 的 通讯 也 是 一 个 设备 模型 功能 ; 本 章 
解释 了 这 个 通讯 如 何 工作 . 
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图 14. 1， 设 备 模型 的 一 小 部 分 
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但 是 ， 我 们 开始 于 一 个 自 底 而 上 的 设备 模型 的 表述 .设备 模型 的 复杂 性 使 得 难于 从 一 个 高 层 视角 来 理解 . 
我 们 的 希望 是 ， 通 过 展示 低层 设备 组 件 如 何 工 作 ， 我 们 可 为 你 准备 这 个 挑战 ， 掌 握 这 些 组 件 如 何 用 来 建 
立 更 大 的 结构 . 






























































对 大 部 分 读者 ， 本 章 可 作为 高 级 材料 , 不 需要 在 第 一 次 读 完 ， 鼓 励 那些 对 Linux 设备 模型 如 何 工 作 感 兴 
趣 的 人 努力 向 前 ， 但 是 ， 在 我 们 进入 底层 细节 时 . 

















14. 1. Kobjects, Ksets 和 Subsystems 


Kobject 是 基础 的 结 








构 ， 它 保持 设备 模型 在 一 起 ， 初 始 地 它 被 作为 一 个 简单 的 引用 计数 ， 








但 是 它 的 责任 已 随时 间 增 长 ， 并 且 因 此 有 了 和 它 上 自己 的 战场 . struct kobject 所 处 理 的 任 
务 和 它 的 支持 代码 现在 包括 : 





对 象 的 引用 计数 


常 铝 ， 当 一 个 内 核对 象 被 双 
象 生命 周期 的 方法 是 通过 3 














| 建 ， 没 有 方法 知道 它 会 存在 多 长 时 间 ， 一 种 跟踪 这 种 对 
| 用 计数 ， 当 没有 内 核 代 码 持 有 对 给 定 对 象 的 引用 ， 那 个 





对 象 已 经 完成 了 它 的 有 用 寿命 并 且 可 以 被 删除 . 


sysfs 表示 


在 sysfs 中 出 现 的 每 个 对 象 在 它 的 下 面 都 有 一 个 kobject， 它 和 内 核 交互 来 创建 


它 的 可 见 表示 . 





数据 结构 粘 和 


AR 








设备 模型 是 ， 整 体 来 看 ， 一 个 极端 复杂 的 由 多 级 组 成 的 数据 结构 ， 各 级 之 间 有 许多 


连接 . kobject 实现 这 个 经 





上 拔 事 件 处 理 








者 构 并 且 保 持 它 在 一 起 . 





kobject 子 系统 处 理事 件 的 产生 ， 事 件 通知 用 户 空 间 关 于 系统 中 硬件 的 来 去 . 
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你 可 能 从 前 面 的 列表 总 结 出 kobject 是 一 个 复杂 的 结构 .这 可 能 是 对 的 .通过 一 次 看 一 
部 分 ， 但 是 ， 是 有 可 能 理解 这 个 结构 和 它 如 何 工 作 的 . 




















14.1.1. Kobject 基础 


一 个 kobject 有 类 型 struct kobject; 它 在 《linux/kobject.h> 中 定义 ， 这 个 文件 还 
含 许多 其 他 和 kobject 相关 的 结构 的 声明 ， 一 个 操作 它们 的 函数 的 长 列表 . 








14.1.1.1. 能 入 的 kobjects 





在 我 们 进入 细节 前 ， 值 得 花 些 时 间 理 解 如 何 使 用 kobjects， 如 果 你 回 看 被 kobjects 处 
理 的 函数 列表 ， 你 会 看 到 它们 都 是 代表 其 他 对 象 进行 的 服务 ， 一 个 kobject， 换 名 话说 ， 
对 其 自己 很 少 感 兴趣 ; 它 存 在 仅仅 为 了 结合 一 个 高 级 对 象 到 设备 模型 . 

















因此 ， 对 于 内 核 代码 它 很 少 ( 甚 至 不 知道 ) 创 建 一 个 孤立 的 kobject; 相反 ，kobject 被 用 
来 控制 存 取 更 大 的 ， 特 定 域 的 对 象 ， 为 此 ，kobject 被 蔡 入 到 其 他 结构 中 ， 如 果 你 习惯 以 
面向 对 象 的 术语 考虑 事情 ，kobject 可 被 看 作 一 个 顶级 的 ， 抽 象 类 ， 其 他 的 类 自 它 而 来 . 
一 个 kobject 实现 一 系列 功能 ， 这 些 功能 对 自己 不 是 特别 有 用 而 对 其 他 对 象 是 好 的 . C 
语言 不 允许 直接 表达 继承 ， 因 此 其 他 的 技术 一 例如 将 一 个 结构 嵌入 另 一 个 一 必须 使 用 . 























作为 一 个 例子 ， 让 我 们 回 看 struct cdev， 我 们 在 第 3 章 遇 到 过 它 .， 那个 结构 ， 如 同 在 
2. 6. 10 内 核 中 发 现 的 ， 看 来 如 此 : 


struct cdev { 

struct kobject kobj; 

struct module *owner; 

struct file operations *ops; 
struct list head list; 

dev t dev; 

unsigned int count; 


ji 








我 们 可 以 看 出 ，cdev 结构 有 一 个 kobject KEE. WR UG -DRŽE SR 
它 的 嵌入 的 kobject 只 是 使 用 kobj 成 员 . 使 用 kobjects 的 代码 有 相反 的 问题 ， 但 是 : 
如 果 一 个 struct kobject 指针 ， 什 么 是 指 癌 包含 结构 的 指针 ? FEN ARES p] (例如 假 
定 kobject 是 在 结构 的 开始 )， 并 且 ， 相 反 ， 使 用 container of 宏 (在 第 3 章 的 "open 
方法 一 节 中 介绍 的 )， 因 此 转换 一 个 指 问答 在 一 个 结构 cdev 中 的 一 个 struct kobject 
的 指针 kp 的 方法 是 : 























struct cdev *device = container of (kp, struct cdev, kobj); 


ETRA EEX 1 REEL J8 E” kobject 指针 到 包含 类 型 . 
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14.1.1.2. kobject 初始 化 


本 书 已 经 展示 了 许多 数据 类 型 ， 带 有 简单 的 在 编译 或 者 运行 时 初始 化 机 制 ， 一 个 kobject 
的 初始 化 有 些 复杂 ， 特 别 当 使 用 它 的 所 有 函数 时 ， 不 管 一 个 kobject 如 何 使 用 ， 但 是 ， 
必须 进行 几 个 步骤 . 

















这 些 步骤 的 第 一 个 是 仅仅 设置 整个 kobject 为 0， 常 常 使 用 一 个 对 memset 的 调用 . 常 
常 这 个 初始 化 作为 清 零 这 个 kobjiect 骨 入 的 结构 的 一 部 分 ， 清 零 一 个 kobject 失败 导 
致 非常 奇怪 的 骨 涡 ， 进 一 步 会 掉 线 ; 这 不 是 你 想 跳 过 的 一 步 . 
































下 一 步 是 设立 一 些 内 部 成 员 ， 使 用 对 kobject initO 的 调用 : 
void kobject init(struct kobject *kobj); 


在 其 他 事情 中 ，kobject_init 设置 kobject 的 引用 计数 为 1， 调 用 kobject init 不 够 ， 
但 是 . kobject 用 户 必 须 ， 至 少 ， 设 置 kobject WET. 这 是 用 在 sysfs 入 口 的 名 子 . 
如 果 你 深入 内 核 代 码 ， 你 可 以 发 现 直接 拷贝 一 个 字符 串 到 kobject 的 名 子 成 员 的 代码 ， 

但 是 应 当 避 免 这 个 方法 .相反 ， 使 用 : 











int kobject set name(struct kobject *kobj, const char *format, ...); 


这 个 函数 采用 一 个 printk 风格 的 变量 参数 列表 ， 不管 你 信 或 不 信 ， 对 这 种 操作 实际 上 可 
能 失败 ( 他 可 能 试图 分 配 内 存 ); 负责 任 的 代码 应 当 检 查 返回 值 并 且 有 针对 性 的 相应 . 




















其 他 的 由 创建 者 应 当 设 置 的 kobject 成 员 ， 直 接 或 间接 ， 是 ktype，kset， 和 parent. 
我 们 在 本 章 稍 后 到 这 些 . 


14.1.1.3. 引用 计数 的 操作 
一 个 kobject 的 其 中 一 个 关键 函数 是 作为 一 个 引用 计数 器 ， 给 一 个 它 被 嵌入 的 对 象 ， 只 


要 对 这 个 对 象 的 引用 存在 ， 这 个 对 象 ( 和 文 持 它 的 代码 ) 必须 继续 存在 .来 操作 一 个 
kobject 的 引用 计数 的 低级 函数 是 : 








struct kobject *kobject get(struct kobject *kob;j); 
void kobject put(struct kobject **kobj); 





一 个 对 kobject get 的 成 功 调用 递增 kobject 的 引用 计数 并 且 返 回 一 个 指向 kobject 
的 指针 如果， 但 是 ， 这 个 kobject 已 经 在 被 销毁 的 过 程 中 ， 这 个 操作 失败 ， 并 且 
kobject get 返回 NULL. 这 个 返回 值 必须 总 是 被 测试 ， 否 则 可 能 导致 无 法 结束 的 令 人 不 
愉快 的 竞争 情况 . 

















当 一 个 引用 被 释放 ， 对 kobject put 的 调用 递减 引用 计数 ， 并 且 可 能 地 ， 释 放 这 个 对 象 . 
记 住 kobject init 设置 这 个 引用 计数 为 1; 因此 当 你 创建 一 个 kobject， 你 应 当 确 保 
对 应 地 采取 kobject_put 调用 ， 当 这 个 初始 化 引用 不 再 需要 . 
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注意 ， 在 许多 情况 下 ， 在 kobject 自身 中 的 引用 计数 可 能 不 足以 阻止 竞争 情况 ， 一 个 
kobject 的 存在 ( 以 及 它 的 包含 结构 ) 可 能 非常 ， 例 如 ， 需 要 创建 这 个 kobject 的 模块 
的 继续 存在 .在 这 个 kobject 仍然 在 被 传送 时 不 能 印 载 那 个 模块 ， 这 是 为 什么 我 们 上 面 
看 到 的 cdev 结构 包含 一 个 struct module 指针 .struct cdev 的 引用 计数 实现 如 下 : 




















struct kobject *cdev get(struct cdev *p) 
{ 

struct module *owner = p->owner; 

struct kobject *kobj; 

if (owner && !try module get (owner) ) 
return NULL; 

kobj = kobject get (&p->kobj) ; 

if (!kobj) 

module put (owner); 

return kobj; 


} 














创建 一 个 对 cdev 结构 的 引用 还 需要 创建 一 个 对 拥有 它 的 模块 的 引用 . 因此 ，cdev_get 
使 用 try module get 来 试图 递增 这 个 模块 的 使 用 计数 . 如果 这 个 操作 成 功 ， 

kobject get 被 同样 用 来 递增 kobject 的 引用 计数 .那个 操作 可 能 失败 ， 当 然 ， 因 此 这 
个 代码 检查 自 kobject_get 的 返回 值 并 且 释 放 它 的 对 模块 的 引用 如 果 事 情 没 有 人 解决. 


14.1.1.4. 释放 函数 和 kobject 类 型 

















讨论 中 仍然 缺失 的 一 个 重要 事情 是 当 一 个 kobject 的 引用 计数 到 0 时 会 发 生 什么 ， 创 建 
kobject 的 代码 通常 不 知道 什么 时 候 要 发 生 这 个 情况 ; 如 果 它 知道 ， 在 第 一 位 使 用 一 个 引 
用 计数 就 没有 意义 了 ， 即 便当 引入 sysfs 时 可 预测 的 对 象 生命 周期 变 得 更 加 复杂 ; 用 户 
空间 程序 可 保持 一 个 对 kobject 的 引用 ( 通过 保持 一 个 它 的 关联 的 sysfs 文件 打开 ) 一 
段 任意 的 时 间 ， 


























最 后 的 结果 是 一 个 被 kobject 保护 的 结构 无 法 在 任何 一 个 单个 的 ， 可 预测 的 驱动 生命 周 
期 中 的 点 被 释放 ， 但 是 可 以 在 必须 准备 在 kobject 的 引用 计数 到 0 的 任何 时 刻 运行 的 代 
码 中 .引用 计数 不 在 创建 kobject 的 代码 的 直接 控制 之 下 ， 因 此 这 个 代码 必须 被 异步 通 
知 ， 无 论 何 时 对 它 的 kobject 的 最 后 引用 消失 . 











这 个 通知 由 kobject 的 一 个 释放 函数 来 完成 ， 常 第 地 ， 这 个 方法 有 一 个 形式 如 下 : 


void my object release(struct kobject *kobj) 


{ 
struct my object *mine = container of(kobj, struct my object, kobj); 


/* Perform any additional cleanup on this object, then... */ 
kfree (mine); 


} 








要 强调 的 重要 一 点 是 : 每 个 kobject 必须 有 一 个 释放 函数 ， 并 且 这 个 kobject 必须 持续 
( 以 一 致 的 状态 ) 直到 这 个 方法 被 调用 ， 如 果 这 些 限制 不 满足 ， 人 代码 就 有 缺陷 ， 当 这 个 
对 象 还 在 使 用 时 被 释放 会 有 风险 ， 或 者 在 最 后 引用 被 返回 后 无 法 释放 对 象 . 
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有 趣 的 是 ， 释 放 方 法 没有 存储 在 kobject 自身 里 面 ; 相反 ， 它 被 关联 到 包含 kobject 的 
结构 类 型 中 ， 这 个 类 型 被 跟踪 ， 用 一 个 struct kobj type 结构 类 型 ， 常 常 简单 地 称 为 一 
个 “ktype“， 这 个 结构 看 来 如 下 : 




















struct kobj type ( 

void (*release) (struct kobject *); 
struct sysfs ops *sysfs ops; 
struct attribute ***default attrs; 


Hh 


在 struct kobj type 中 的 release 成 员 是 ， 当 然 ， 一 个 指向 这 个 kobject 类 型 的 
release 方法 的 指针 .我 们 将 回 到 其 他 2 个 成 员 ( sysfs ops 和 default attrs ) 在 本 
78 Ji ifti. 














每 一 个 kobject 需要 有 一 个 关联 的 kobj type £&TJ. Aid, AAA BE 
在 2 个 不 同 的 地 方 找到 ，kobject 结构 自身 包含 一 个 成 员 ( 称 为 ktype) 包含 这 个 指针 . 
但 是 ， 如 果 这 个 kobject 是 一 个 kset 的 成 员 ，kobj_type 指针 由 kset 提供 . ( 我 们 
将 在 下 一 节 查 看 ksets. ) 其 间 ， 这 个 宏 定义 : 























struct kobj type *get ktype(struct kobject *kobj); finds the kobj type pointer 
for a given kobject. 


14.1.2. kobject 层次 ，kset， 和 子 系统 


kobject 结构 常常 用 来 连接 对 象 到 一 个 层级 的 结构 中 ， 匹 配 正 被 建 模 的 子 系统 的 结构 .有 
2 个 分 开 的 机 制 对 于 这 个 连接 : parent 指针 和 ksets. 























在 结构 kobject 中 的 parent 成 员 是 一 个 指向 其 他 对 象 的 指针 一 代表 在 层次 中 之 上 的 
下 一 级 ， 如 果 ， 例 如 ， 一 个 kobject 表示 一 个 USB 设备 ， 它 的 parent 指针 可 能 指示 这 
个 设备 被 插入 的 hub. 








parent 指针 的 主要 用 途 是 在 sysfs 层次 中 定位 对 象 ， 我 们 将 看 到 这 个 如 何 工 作 ， 在 “ 低 
级 sysfs 操作 “一 节 中 . 


14.1.2.1. Ksets 对 象 





很 多 情况 ， 一 个 kset 看 来 象 一 个 kobj_type 结构 的 扩展 ; 一 个 kset AÉ— T HUN EH 
同类 型 结构 的 kobject 的 集合 . 但 是 ， 虽 然 struct kobj type 关注 的 是 一 个 对 象 的 类 
型 ，struct kset 被 聚合 和 集合 所 关注 . 这 2 个 概念 已 被 分 开 以 至 于 一 致 类 型 的 对 象 可 
以 出 现在 不 同 的 集合 中 . 








因此 ， 一 个 kset 的 主要 功能 是 容纳 ; 它 可 被 当 作 顶层 的 给 kobjects 的 容器 类 . 实际 上 ， 
每 个 kset 在 内 部 容纳 它 自己 的 kobject， 并 且 它 可 以 ， 在 许多 情况 下 ， 如 同一 个 
kobject 相同 的 方式 被 对 待 . 值得 注意 的 是 ksets 一 直 在 sysfs 中 出 现 ; 一 旦 一 个 

kset 已 被 建立 并 且 加 入 到 系统 ， 会 有 一 个 sysfs 目录 给 它 . kobjects 没有 必要 在 

sysfs 中 出 现 ， 但 是 每 个 是 kset 成 员 的 kobject 都 出 现在 那里 . 
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增加 一 个 kobject 到 一 个 kset 常常 在 一 个 对 象 创 建 时 完成 ; 它 是 一 个 2 步 的 过 程 . 
kobject 的 kset 成 员 必须 ???; 接着 kobject 应 当 被 传递 到 : 








int kobject add(struct kobject *kobj); 


如 常 ， 程 序 员 应 当 小 心 这 个 函数 可 能 失败 (在 这 个 情况 下 它 返 回 一 个 负 错 误 码 ) 并且 相应 地 
反应 ， 有 一 个 内 核 提 供 的 方便 函数 : 





extern int kobject register(struct kobject **kobj); 





这 个 函数 仅仅 是 一 个 kobject init 和 kobject add 的 结合 . 





当 一 个 kobject 被 传递 给 kob ject_add， 它 的 引用 计数 被 递增 ，kset 中 容纳 的 ， 毕 竟 ， 
是 一 个 对 这 个 对 象 的 引用 . 某 种 意义 上 ，kobject 可 能 要 必须 从 kset 中 移出 来 清除 这 个 
引用 ; 完成 这 个 使 用 : 











void kobject del(struct kobject **kobj); 





还 有 一 个 kobject unregister KX, Æ kobject del 和 kobject put 的 结合 . 


一 个 kset 保持 它 的 子女 在 一 个 标准 的 内 核 链 表 中 ， 在 大 部 分 情况 下 ， 被 包含 的 
kobjects 也 有 指向 这 个 kset 的 指针 ( 或 者 ， 严 格 地 ， 它 的 租 入 kobject) 在 它们 的 
parent 的 成 员 ， 因 此 ， 典 型 地 ， 一 个 kset 和 它 的 kobjects 看 来 有 些 象 你 在 图 一 个 简 
单 的 kset 层次 中 所 见 ， 记 住 : 


图 14. 2， 一 个 简单 的 kset 层次 












-— a kobject -> parent 
kobject -> kset 
——>ksetchild list 





。 图 表 中 的 所 有 的 被 包含 的 kobjects 实际 上 被 嵌入 在 一 些 其 他 类 型 中 ， 甚 至 可 能 其 











他 的 ksets. 
。 一 个 kobject 的 parent 不 要 求 是 包含 kset ( 尽管 任何 其 他 的 组 织 可 能 是 奇怪 的 
和 稀少 的 ). 


14.1.2.2. ksets 之 上 的 操作 


对 于 初始 化 和 设置 ，ksets 有 一 个 接口 非常 类 似 于 kobjects， 下 列 函数 存在 : 
void kset init(struct kset *kset); 
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int kset add(struct kset **kset); 
int kset register(struct kset *kset); 
void kset unregister(struct kset *kset); 


对 大 部 分 ， 这 些 函 数 只 是 在 kset HRAN ZEHK UII kobject_ ”函数 . 
为 管理 ksets 的 引用 计数 ， 情 况 大 概 相 同 : 








struct kset *kset get(struct kset *kset); 
void kset_put (struct kset **kset); 


一 个 kset WA—DET, BE TWAmI kobject. 因此 ， 如 果 你 有 一 个 kset 称 为 
my_set， 你 将 设置 它 的 名 子 用 : 


kobject_set_name (&my_set->kobj，“The name"); 





ksets 还 有 一 个 指针 ( 在 ktye 成 员 ) 指 向 kobject type 结构 来 描述 它 包含 的 kobject. 
这 个 类 型 优先 于 在 kobject 自身 中 的 ktype 成 员 ， 结果 ， 在 典型 的 应 用 中 ， 在 struct 
kobject 中 的 ktype 成 员 被 留 为 NULL， 因 为 kset 中 的 相同 成 员 是 实际 使 用 的 那个 . 











最 后 ， 一 个 kset 包含 一 个 子 系统 指针 ( 称 为 subsys)， 因 此 是 时 候 讨论 子 系 统 了 . 
14.1.2.3. 子 系统 








个 子 系统 是 作为 一 个 整体 对 内 核 一 个 高 级 部 分 的 代表 .， 子 系统 常常 (但 是 不 是 一 直 ) 出 现 
在 sysfs 层次 的 顶级 ， 一些 内 核 中 的 例子 子 系统 包括 block_subsys (/sys/block， 给 块 
设备 )，devices_subsys(/sys/devices， 核 心 设备 层次 )， 以 及 一 个 特殊 子 系统 给 每 个 内 
核 已 知 的 总 线 类 型 ， 一 个 驱动 作者 几乎 从 不 需要 创建 一 个 新 子 系统 ; 如 果 你 想 这 样 做 ， 再 
仔细 想 想 ， 你 可 能 需要 什么 ， 最 后 ， 是 增加 一 个 新 类 别 ， 如 同 在 "类别 “ 一 节 中 描述 的 . 









































一 个 子 系统 由 一 个 简单 结构 代表 : 


struct subsystem { 
struct kset kset; 
struct rw semaphore rwsem; 


k 





一 个 子 系统 ， 因 此 ， 其 实 只 是 一 个 对 kset 的 包装 ， 有 一 个 旗 标 丢 在 里 面 . 








每 个 kset 必须 属于 一 个 子 系统 ， 子 系统 成 员 关系 帮助 建立 kset 的 位 置 在 层次 中 ， 但 是 ， 
更 重要 的 ， 子 系统 的 rwsem 旗 标 用 来 串 行 化 对 kset 的 内 部 链表 的 存 取 .， 这 个 成 员 关 系 

由 在 struct kset 中 的 subsys 指针 所 表示 . 因此 ， 可 以 从 kset 的 结构 找到 每 个 kset 
的 包含 子 系 统 ， 但 是 却 无 法 直接 从 子 系 统 结 构 发 现 多 个 包含 在 子 系统 中 的 kset. 























子 系统 常 弟 用 一 个 特殊 的 宏 声 明 : 
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decl subsys(name, struct kobj type *type, struct kset hotplug ops 
*hotplug ops); 








这 个 宏 创建 一 个 struct subsystem 使 用 一 个 给 这 个 宏 的 名 子 并 后 级 以  subsys 而 形成 
的 名 子 ， 这 个 宏 还 初始 化 内 部 的 kset 使 用 给 定 的 type 和 hotplug ops. ( 我 们 在 本 章 
后 面 讨论 热 插 拔 操 作 ). 

















子 系统 有 通常 的 建立 和 拆 节 函数 : 


void subsystem init(struct subsystem *subsys); 

int subsystem register(struct subsystem *subsys); 
void subsystem unregister (struct subsystem *subsys); 
struct subsystem *subsys get(struct subsystem *subsys) 
void subsys put(struct subsystem *subsys); 


大 部 分 这 些 操作 只 是 作用 在 子 系统 的 kset E. 
14. 2， 低 级 sysfs 操作 


kobject 是 在 sysfs 对 每 个 在 sysfs 中 发 现 的 目录 ， 有 一 个 
kobject 潜伏 在 内 核 某 处 ， 每 个 感 兴趣 的 kobject 也 输出 一 个 或 多 个 属性 ， 它 出 现在 
kobject 的 sysfs 目录 ， 和 本 节 检 查 kobject 和 sysfs 
如 何在 低层 交互 . 














使 用 sysfs 的 代码 应 当 包 售 <linux/sysfs. h>. 





使 一 个 kobject 在 sysfs 出 现 仅仅 是 调用 kobject_add 的 事情 .我 们 已 经 见 到 这 个 函 
数 作为 添加 一 个 kobject 到 一 个 kset 的 方式 ; 在 sysfs 中 创建 入 口 也 是 它 的 工作 的 一 
部 分 ， 有 一 些 事情 值得 知道 ， 关 于 sysfs 入 口 如 何 创建 : 

















。 kobjects 的 sysfs 入 口 一 直 为 目录 ， 因 此 一 个 对 kobject_add 的 调用 导致 在 
sysfs 中 创建 一 个 目录 . 常常 地 ， 这 个 目录 包含 一 个 或 多 个 属性 ;我 们 稍 后 见 到 属 
性 如 何 指定 

。 分 配给 kobject 的 名 字 ( 用 kobject set name ) 是 给 sysfs 目录 使 用 的 名 字 . 
因此 ， 出 现在 sysfs 层次 的 相同 部 分 的 kobjects 必须 有 独特 的 名 字 ， 分 配给 
kobjects 的 名 学 也 应 当 是 合理 的 文件 名 字 : 它们 不 能 包含 斜 线 字 符 ， 并 且 空 白 的 

使 用 强烈 不 推荐 . 

。 sysfs 入 口 位 于 对 应 kobject 的 parent 指针 的 目录 中 . 如 果 parent 是 NULL 
当 kobject add 被 调用 时 ， 它 被 设置 为 散在 新 kobject 的 kset 中 的 kobject; 
因此 ， sysfs JA% m UEH kset 创建 的 内 部 层次 ， 如果 parent 和 kset 都 

是 NULL, sysfs 目录 在 顶级 被 创建 ， 这 几乎 当然 不 是 你 所 要 的 . 


































































































使 用 我 们 至 今 所 描述 的 ， 我 们 可 以 使 用 一 个 kobject 来 在 sysfs 中 创建 一 个 空 目录 ， 常 
常 地 ， 你 想 做 比 这 更 有 趣 的 事情 ， 因 此 是 时 间 看 属性 的 实现 . 


14. 2. 1， 缺 省 属性 














319 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu,Fedora,SUSEL] OD O O 0O IO 0O O Linux[] HD] E] LU [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
当 被 创建 时 ， 每 个 kobject 被 给 定 一 套 缺 省 属性 ， 这些 属性 通过 kobj type 结构 来 指定 . 
这 个 结构 ， 记 住 ， 看 来 如 此 : 























struct kobj type { 

void (*release) (struct kobject *); 
struct sysfs ops *sysfs ops; 
struct attribute ***default attrs; 


n 





default attr 成 员 列 举 了 对 每 个 这 样 类 型 的 kobject 被 创建 的 属性 ， 并 且 sysfs ops 
提供 方法 来 实现 这 些 属性 .我 们 从 default attrs 开始 ， 它 指向 一 个 指向 属性 结构 的 指 
针 数 组 : 














struct attribute { 
char *name; 

struct module *owner; 
mode t mode; 


} ; 





在 这 个 结构 中 ，name 是 属性 的 名 字 ( 如 同 它 出 现在 kobject 的 sysfs 目录 中 )，owner 
是 一 个 指向 模块 的 指针 (如 果 有 一 个 )， 模 块 负责 这 个 属性 的 实现 ， 并 且 mode 是 应 用 到 这 
个 属性 的 保护 位 ，mode 常常 是 S IRUGO 对 于 只 读 属性 ; 如 果 这 个 属性 是 可 写 的 ， 你 可 以 
扔 出 S IWUSR 来 只 给 root 写 权限 ( modes 的 宏 定 义 在 《linux/stat.h> 中 ). 

default attrs 列表 中 的 最 后 一 个 入 口 必须 用 0 填充 . 




















default attr 数组 说 明 这 些 属性 是 什么 ， 但 是 没有 告诉 sysfs 如 何 真 正 实现 这 些 属性 . 
这 个 任务 落 到 kobj type->sysfs_ops 成 员 ， 它 指 问 一 个 结构 ， 定 义 为 : 














struct sysfs ops { 

ssize t (*show) (struct kobject *kobj, struct attribute *attr, char *buffer); 

ssize t (*store) (struct kobject *kobj, struct attribute *attr, const char *buffer, size t 
size); 


n 


无 论 何 时 一 个 属性 从 用 户 空间 读 取 ，show 方法 被 用 一 个 指向 kobject 的 指针 和 适当 的 属 
性 结构 来 调用 .这 个 方法 应 当 将 给 定 属性 值 编码 进 缓冲 ， 要 确定 没有 和 窗 新 它 ( 它 是 

PAGE SIZE 字 节 )， 并 且 返 回 实际 的 被 返回 数据 的 长 度 ，sysfs 的 惯例 表明 每 个 属性 应 当 
包含 一 个 单个 的 ， 人 可 读 的 值 ， 如 果 你 有 许多 消息 返回 ， 你 可 要 考虑 将 它 分 为 多 个 属性 . 



































— 























同样 的 show 方法 用 在 所 有 的 和 给 定 kobject 关联 的 属性 ， 传递 到 函数 的 attr 指针 可 
用 来 决定 需要 哪个 属性 ， 一些 show 方法 包含 对 属性 名 字 的 一 系列 测试 .其 他 的 实现 将 属 
性 结构 租 入 另 一 个 结构 ， 来 包含 需要 返回 属性 值 的 信息 ; 在 这 种 情况 下 ，container_ of 
可 能 用 在 show 方法 中 来 获得 一 个 指向 嵌入 结构 的 指针 ， 












































store 方法 类 似 ; 它 应 当 将 存在 缓冲 的 数据 编码 ( size 包含 数据 的 长 度 ， 这 不 能 超过 
PAGE SIZE )， 存 储 和 以 任何 有 意义 的 的 方式 啊 应 新 数据 ， 并 且 返 回 实 际 编码 的 字 节 数 . 
store 方法 只 在 属性 的 许可 允许 写 才 被 调用 ， 当 编写 一 个 store 方法 时 ， 不 要 坊 记 你 在 
接收 来 自用 户 空间 的 任意 信息 ; 你 应 当 在 采取 对 应 动作 之 前 非常 小 心地 验证 它 ， 如 果 到 数 
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据 不 匹配 期 望 ， 返 回 一 个 负 的 错误 值 ， 而 不 是 可 能 地 做 一 些 不 想 要 的 和 无 法 恢复 的 事情 . 
如 果 你 的 设备 和 输出 一 个 自 销 毁 的 属性 ， 你 应 当 要 求 一 个 特定 的 学 符 串 写 到 那里 来 引发 这 个 
功能 ; 一 个 偶然 的 ， 随 机 写 应 当 只 产生 一 个 错误 . 


14. 2. 2， 非 缺 省 属性 
在 许多 情况 中 ，kobject 类 型 的 default attrs 成 员 描述 所 有 的 kobject 会 拥有 的 属性 . 


但 是 那 不 是 一 个 设计 中 的 限制 ; 属性 随意 可 以 添加 到 和 删除 自 kojects， 如 果 你 想 添加 一 
个 新 属性 到 一 个 kobject 的 sysfs 目录 ， 简 单 地 填充 一 个 属性 结构 并 且 传递 它 到 : 
























































int sysfs create file(struct kobject *kobj, struct attribute *attr); 














如 果 所 有 都 进行 顺利 ， 文 件 被 使 用 在 属性 结构 中 给 定 的 名 学 创建， 并 且 返 回 值 是 0; 否则 ， 
返回 通常 的 负 错 误 码 . 











注意 ， 相 同 的 showO 和 storeO 函数 被 调用 来 实现 对 新 属性 的 操作 ， 在 你 添加 一 个 者 
的 ， 非 缺 省 属性 到 kobject， 你 应 当 任 何必 要 的 步 又 来 确保 这 些 函 数 知道 如 何 实现 这 个 属 
性 : 
































为 去 除 一 个 属性 ， 调 用 : 





int sysfs remove file(struct kobject *kobj, struct attribute *attr); 


在 调用 后 ， 这 个 属性 不 再 出 现在 kobject 的 sysfs 入 口 ， 要 小 心 ， 但 是 ， 一 个 用 户 空 间 
进程 可 能 有 一 个 打开 的 那个 属性 的 文件 描述 符 ， 并 且 在 这 个 属性 已 经 被 去 除 后 show 和 
store 调用 仍然 可 能 . 


14. 2. 3， 二 进 制 属性 


sysfs 惯例 调用 所 有 属性 来 包含 一 个 单个 的 人 可 读 文 本 格式 的 值 ， 就 是 说 ， 只 是 偶然 地 很 
少 需要 来 创建 能 够 处 理 大 量 二 进 制 数据 的 属性 ， 这 个 需要 真正 地 只 出 现在 必须 传递 数据 ， 
不 可 动 地 ， 在 用 户 空间 和 设备 例如， 上载 固件 到 设备 需要 这 个 特性 ， 当 这 样 一 个 设备 在 
系统 中 遇 到 ， 一 个 用 户 程 序 可 以 被 启动 ( 通过 热 插 拔 机 制 ) ;这 个 程序 接 痢 传递 固件 代码 
到 内 核 通过 一 个 二 进 制 sysfs 属性 ， 如 同 在 ”内核 固 件 接口 “一 节 中 所 示 . 

































































二 进 制 属性 使 用 一 个 bintattribute 结构 来 描述 : 





struct bin attribute { 

struct attribute attr; 

size t size; 

ssize t (*read) (struct kobject *kobj, char *buffer, loff t pos, size t size); 
ssize t (*write) (struct kobject *kobj, char *buffer, loff t pos, size t size); 


}; 








这 里 ，attr 是 一 个 属性 结构 ， 给 出 名 字 ， 拥 有 者 ， 和 这 个 二 进 制 属性 的 权限 ， 并 且 size 
是 这 个 二 进 制 属性 的 最 大 大 小 (或 者 0 ， 如 果 没有 最 大 值 )，read 和 write 方法 类 似 于 
正常 的 字符 驱动 对 应 物 ， 它 们 一 次 加 载 可 被 多 次 调用 ， 每 次 调用 最 大 一 页 数据 ， 对 于 
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sysfs 没有 办 法 来 指示 最 后 一 个 写 操作 ， 因 此 实现 二 进 制 属性 的 代码 必须 能 够 以 其 他 方式 
决定 数据 的 结束 . 





























ZE 


c— 


属性 必须 明确 创建 ;它们 不 能 建立 为 缺 省 属性 .为 创建 一 个 二 进 制 属性 ， 调 用 : 




















int sysfs create bin file(struct kobject *kobj, struct bin attribute *attr); 


去 除 二 进 制 属性 可 用 : 





int sysfs remove bin file(struct kobject *kobj, struct bin attribute *attr); 


14. 2. 4， 符 号 连接 


sysfs 文件 系统 有 通常 的 树 结构 ， 反 映 它 代表 的 kobjects 的 层次 组 织 ， 但 是 内 核 中 对 象 
iio ud Rue. 例如 ， 一 个 sysfs 子 树 Csys/devices ) 代 表 所 有 的 系 

统 已 知 的 设备 ， 而 其 他 的 子 树 ( 在 /sys/bus 之 下 ) 表 示 设 备 驱 动 ， 这 些 树 ， 但 是 ， 不 代 
dup 它们 所 管理 的 设备 间 的 关系 . 展示 这 些 附加 关系 需要 额外 的 指针 ， 指 针 在 sysfs 
中 通过 符号 连接 实现 . 























创建 一 个 符号 连接 在 sysfs 是 容易 的 : 


int sysfs create link(struct kobject *kobj, struct kobject *target, char *name) ; 





这 个 函数 创建 一 个 连接 ( 称 为 name) 指向 目标 的 sysfs 入 口 作为 一 个 kobj 的 属性 它 是 
一 个 相对 连接 ， 因 此 它 不 管 sysfs 在 任何 特殊 的 系统 中 安装 在 哪里 都 可 用 














这 个 连接 甚至 当 目 标 被 从 系统 中 移 走 也 持续 ， 如 果 你 在 创建 对 其 他 kobjects 的 符号 连接 ， 
你 应 当 可 能 有 一 个 方法 知道 对 这 个 ss 的 改变 ， 或 者 某 种 保证 目标 kobjects 不 会 
消失 结果 ( 在 sysfs 中 的 死 的 符号 连接 ) 不 是 特别 严重 ， 但 是 它们 不 代表 最 好 的 编程 
风格 并 且 可 能 导致 在 用 户 空间 的 混乱 . 


























去 除 符号 连接 可 使 用 : 


void sysfs remove link(struct kobject *kobj, char *name); 


14. 3， 热 插 拔 事件 产生 


一 个 热 插 拔 事件 是 一 个 从 内 核 到 用 户 空间 的 通知 ， 在 系统 配置 中 有 事情 已 经 改变 ， 无 论 何 
时 一 个 kobject 被 创建 或 销毁 就 产生 它们 这样 事件 被 产生 ， 例 如 ， 当 一 个 数字 摄像 头 
使 用 一 个 USB 线 缆 插 入 ， 当 一 个 用 户 切 换 控 制 台 模式 ， 或 者 当 一 个 磁盘 被 重新 分 区 ， 热 
插 拔 事件 转变 为 一 个 对 /sbin/hotplug 的 调用 ， 它 响应 每 个 事件 ， 通 过 加 载 驱动 ， 创 建 
设备 节点 ， 安 装 分 区 ， 或 者 采取 任何 其 他 的 合适 的 动作 . 









































我 们 所 见 的 最 后 一 个 主要 的 kobject 函数 是 这 些 事件 的 产生 ， 实 际 的 事件 在 当 一 个 
kobject 传递 到 kobject add 或 kobject del 时 发 生 . 在 这 个 事件 被 传递 到 用 户 空间 之 
前 ， 和 这 个 kobject 关联 的 代码 ( 或 者 ， 更 特别 的 ， 它 所 属 的 kset ) 有 机 会 来 添加 信息 
给 用 户 空间 或 者 来 完全 关闭 事件 的 产生 . 
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14. 3. 1， 热 插 拔 操作 


热 插 拔 事件 的 实际 控制 是 通过 一 套 存储 于 kset hotplug ops 结构 的 方法 完成 . 

















struct kset hotplug ops { 

int (xfilter) (struct kset *kset, struct kobject *kobj); 
char *(*name) (struct kset *kset, struct kobject *kobj); 
int (Ckhotplug) (struct kset *kset, struct kobject *kobj, 
char *xenvp, int num envp, char *buffer, 

int buffer size); 


J; 








AR AARETE kset 结构 的 hotplug ops 成 员 中 ， 如 果 一 个 给 定 的 
kobject 不 包含 在 一 个 kset 中 ， 内 核 搜索 整个 层次 ( 通过 parent 指针 ) 直到 它 发 现 一 
个 kobject 确实 有 一 个 kset; 接着 使 用 这 个 kset 的 热 插 拔 操作 . 














filter 热 插 拔 操作 被 调用 无 论 何 时 内 核 在 考虑 为 给 定 kobject 产生 一 个 事件 ， 如 果 
filter 返回 0， 事 件 没有 创建 ， 这 个 方法 ， 因 此 ， 给 kset 代码 一 个 机 会 来 决定 哪个 事 
件 应 当 被 传递 给 用 户 空间 以 及 哪个 不 . 























作为 一 个 例子 关于 这 个 方法 怎样 被 使 用 ， 考 虑 块 设备 子 系统 .至少 有 3 类 kobject 用 在 
那里 ， 表 示人 磁盘 ， 分 区 ， 和 请 求 队列 ， 用 户 空间 可 能 想 对 磁盘 或 分 区 的 增加 作出 反应 ， 但 
是 它 正常 地 不 关心 请 求 队列 ， 因 此 filter 方法 允许 事件 产生 只 给 代表 磁盘 和 分 区 的 
kobjects. 它 看 来 如 此 : 


























static int block hotplug filter(struct kset *kset, struct kobject *kobj) 
{ 
struct kobj type *ktype = get ktype (kobj) ; 
return ((ktype == &ktype block) || (ktype == &ktype part)); 
} 





这 里 ， 一 个 快速 的 在 kobject 类 型 上 的 测试 是 足以 决定 是 否 这 个 事件 应 当 产 生 或 者 不 . 











当 用 户 空间 热 插 拔 程序 被 调用 ， 它 被 传递 给 相关 子 系统 的 name 作为 它 唯一 的 一 个 参数 . 
name 热 插 拔 方法 负责 提供 这 个 名 子 ， 它 应 当 返 回 一 个 简单 的 适合 传递 给 用 户 空间 的 字 串 ， 
































热 插 拔 脚本 的 可 能 想 知道 的 其 他 所 有 东 东 都 在 环境 中 传递 最终 的 热 插 拔 方法 4 hotplug ) 
给 了 一 个 机 会 来 在 调用 这 个 脚本 之 前 添加 有 用 的 环境 变量 ， 再 次 ， 这 个 方法 的 原型 是 : 

















int (#hotplug) (struct kset *kset, struct kobject *kobj, 
char ***envp, int num envp, char *buffer, 
nt buffer size); 


m. 





如 常 ，kset 和 kobject 描述 事件 产生 给 的 对 象 .，envp 数组 是 一 个 地 方 来 存储 额外 的 环 
境 变 量 定义 (以 通常 的 NAME= 值 的 格式 ); 它 有 num enp 个 入 口 变 量 . 这 些 变量 自身 应 
HRABAR, Ræ buffer size 字 节 长 . 如 果 你 添加 任何 变量 到 envp， 确 信 添 加 
一 个 NULL 入 口 在 你 最 后 的 添加 项 后 面 ， 这 样 内 核 知道 结尾 在 哪里 .返回 值 正常 应 当 是 0; 
任何 非 零 返回 都 终止 热 插 拔 事件 的 产生 . 
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热 插 拔 事件 的 产生 ( 象 在 设备 模型 中 大 部 分 工作 ) 常常 是 由 在 总 线 驱 动 级 的 逻辑 处 理 . 


14. 4 总线 ， 设 备 ， 和 驱动 


今 ， 我 们 已 经 看 到 大 量 低级 框架 d a RIETER FEA 中 补充 ， 
BERIHA Linux 设备 模型 的 更 高 级 ， 为 此 ， 我 们 介绍 一 个 新 的 虚拟 总 线 ， 我 们 称 为 
lddbus，“ 并 日 修 改 scullp 驱动 来 “ 接 入 ” DAR 
































再 一 次 ， 许 多 驱动 作者 将 不 会 需要 这 里 涉及 的 材料 ， 这 个 水 平 的 细节 通常 在 总 线 级 别处 理 ， 
并 且 很 少 作 者 需要 添加 一 个 新 总 线 类 型 ， 这 个 信息 是 有 用 的 ， 但 是 ， 对 任何 人 好 奇 在 PCI, 
USB 等 层面 的 里 面 发 生 了 什么 或 者 谁 需 要 在 那个 级 别 做 改变 . 




















14. 4. 1， 总 线 





> 为 设备 模型 的 目的 ， 所 有 的 设备 都 通过 
一 个 总 线 连接 ， 甚 至 当 它 个 内 部 的 虚拟 的 , 平台“ 总线， 总 线 可 以 插入 另 一 个 - 一 个 
Usb 控制 器 常 党 是 一 个 PCI 设备 例如 ， 设 备 模型 表示 在 总 线 和 它们 控制 的 设备 之 间 的 
实际 连接 . 

















在 Linux 设备 模型 中 ， 一 个 总 线 由 bus type 结构 代表 ， 定 义 在 《linux/device.h>， 这 
个 结构 看 来 象 : 








struct bus type { 

char *name; 

struct subsystem subsys; 

struct kset drivers; 

struct kset devices; 

int (*match) (struct device *dev, struct device driver *drv); 
struct device *(*add) (struct device * parent, char * bus id); 
int (khotplug) (struct device *dev, char **envp, 

int num envp, char *buffer, int buffer size); 

/* Some fields omitted */ 
)i 











name 成 员 是 总 线 的 名 子 ， 有 些 同 pci， 你 可 从 这 个 结构 中 见 到 每 个 总 线 是 它 上 自己 的 子 系 
统 ; 这 个 子 系统 不 位 于 sysfs 的 顶层 ， 但 是 . 相反， 它们 在 总 线 子 系统 下 面 ， 一 个 总 线 
包含 2 个 ksets， 代 表 已 知 的 总 线 的 驱动 和 所 有 插入 总 线 的 设备 ， 所 以 ， 有 一 套 方法 我 
们 马上 将 涉及 . 














14.4.1.1. 总 线 注册 





如 同 我 们 提 过 的 ， 例 子 源 码 包含 一 个 虚拟 总 线 实 现 称 为 1ddbus， 这 个 总 线 建立 它 的 
bus type 结构 ， 如 下 : 


struct bus type ldd bus type = { .name = "ldd/, .match = ldd match, .hotplug = 
ldd hotplug, j; 


324 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] [] O O 0O IO [] O Linux[] D] E] LU [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
注意 很 少 bus type 成 员 要 求 初始 化 ; 大 部 分 由 设备 模型 核心 处 理 ， 但是， 我 们 确实 不 得 
不 指定 总 线 的 名 子 ， 以 及 任何 伴随 它 的 方法 . 























不 可 避免 地 ， 一 个 新 总 线 必 须 注册 到 系统 ， 通 过 一 个 对 bus register 的 调用 . lddbus 
代码 这 样 做 以 这 样 的 方式 : 


ret = bus register(&ldd bus type); 
if (ret) 
return ret; 


这 个 调用 可 能 失败 ， 当 然 ， 因 此 返回 值 必须 一 直 检 查 . 如 果 它 成 功 ， 新 总 线 子 系统 已 被 添 
加 到 系统 ; 在 sysfs 中 /sys/bus 的 下 面 可 以 见 到 ， 并 且 可 能 启动 添加 设备 . 








如 果 有 必要 从 系统 中 去 除 一 个 总 线 ( 当 关联 模块 被 去 除 ， 例 如 )， 调 用 调用 


bus unregister: 


void bus unregister(struct bus type *bus); 


14.4.1.2. 总 线 方法 








有 几 个 给 bus type 结构 定义 的 方法 ; 它们 允许 总 线 代 码 作 为 一 个 设备 核心 和 单独 驱动 之 
间 的 中 介 . 在 2.6.10 内 核 中 定义 的 方法 是 : 





int Ckmatch) (struct device *device, struct device driver *driver); 








这 个 方法 被 调用 ， 大 概 多 次 ， 无 论 何 时 一 个 新 设备 或 者 驱动 被 添加 给 这 个 总 线 ， 它 
应 当 返 回 一 个 非 零 值 如 果 给 定 的 设备 可 被 给 定 的 驱动 处 理 ， (我 们 马上 进入 设备 和 
device driver 结构 的 细节 )， 这 个 函数 必须 在 总 线 级 别处 理 ， 因 为 那 是 合适 的 逻 
辑 存在 的 地 方 ; 核心 内 核 不 能 知道 如 何 匹配 每 个 可 能 总 线 类 型 的 设备 和 驱动 . 



































int Ckhotplug) (struct device *device, char **envp, int num envp, char *buffer, 
int buffer size); 











这 个 模块 允许 总 线 添 加 变量 到 环境 中 ， 在 产生 一 个 热 插 拔 事件 在 用 户 空间 之 前 ， 参 
数 和 kset 热 插 拔 方法 相同 ( 在 前 面 的 “ 热 插 拔 事件 产生 ”一 节 中 描述 ). 
































lddbus 驱动 有 一 个 非常 简单 的 匹配 函数 ， 它 仅仅 比较 驱动 和 设备 的 名 子 : 





static int ldd match(struct device *dev, struct device driver *driver) 
{ 
return !strncmp (dev->bus id, driver->name, strlen(driver-^name)); 


} 














当 涉 及 到 真实 硬件 ，match 函数 常常 在 有 设备 自身 提供 的 硬件 ID 和 驱动 提供 的 ID 之 间 ， 
做 一 些 比 较 . 











Iddbus 热 插 拔 方法 看 来 象 这 样 : 
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static int ldd hotplug(struct device *dev, char **envp, int num envp, char *buffer, int 
buffer size) 

{ 

envp[0] = buffer; 

if (snprintf(buffer, buffer size, “LDDBUS VERSION-*s^, 
Version) >= buffer size) 

return -ENOMEM; 

envp[1] = NULL; 

return 0; 


} 








这 里 ， 我 们 加 入 lddbus 源码 的 当前 版 本 号 ， 只 是 以 防 有 人 好 奇 . 
14.4.1.3. 列举 设备 和 驱动 


如 果 你 在 编写 总 线 级 别 的 代码 ， 你 可 能 不 得 不 对 所 有 已 经 注册 到 你 的 总 线 的 设备 或 驱动 进 
行 一 些 操 作 . 它 可 能 会 诱惑 人 直接 进入 bus type 结构 中 的 各 种 结构 ， 但 是 最 好 使 用 已 经 
提供 的 帮助 函数 . 














为 操作 每 个 对 总 线 已 知 的 设备 ， 使 用 : 


int bus for each dev(struct bus type *bus, struct device *start, void *data, 
int (*fn) (struct device *, void *)); 





这 个 函数 列举 总 线 上 的 每 个 设备 ， 传 递 关联 的 设备 结构 给 fn， 连 同 作为 data 来 传递 的 
1. WR start 是 NULL， 列 举 从 总 线 的 第 一 个 设备 开始 ; 否则 列举 从 start 之 后 的 第 
一 个 设备 开始 . 如果 fn 返回 一 个 非 零 值 ， 列 举 停 止 并 且 那 个 值 从 bus_for_each dev 返 
回 . 





有 一 个 类 似 的 函数 来 列举 驱动 : 


int bus for each drv(struct bus type *bus, struct device driver *start, void *data, int 
Ckfn) (struct device driver *, void *)); 


这 个 函数 就 像 buf for each dev, RT, 2525, CR ZIEH TIK). 














应 当 注 意 ， 这 2 个 函数 持 有 总 线 子 系统 的 读者 / 写 者 旗 标 在 工作 期 间 . 因此 试图 一 起 使 用 
这 2 个 会 死 锁 -- 每 个 将 试图 获取 同一 个 旗 标 .修改 总 线 的 操作 (〈 例如 注销 设备 ) 也 将 
锁 住 。 因此， 小 心 使 用 bus for each 函数 . 





14.4.1.4. 总 线 属 性 





JLF Linux 驱动 模型 中 的 每 一 层 都 提供 一 个 添加 属性 的 接口 ， 并 且 总 线 层 不 例外 . 
bus attribute 类 型 定义 在 《linux/device.h> "WF: 





struct bus attribute { 
struct attribute attr; 
ssize t (*show) (struct bus type *bus, char *buf); 
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ssize t (*store) (struct bus type *bus, const char **buf, 
size t count); 


4 


我 们 已 经 见 到 struct attribute 在 “ 缺 省 属性 ”一 节 .， bus attribute 类 型 也 包含 2 
个 方法 来 显示 和 设置 属性 值 . 大 部 分 在 kobject 之 上 的 设备 模型 层 以 这 种 方式 工作 . 


























已 经 提供 了 一 个 方便 的 宏 为 在 编译 时 间 创 建 和 初始 化 bus attribute 结构 : 


BUS ATTR(name, mode, show, store); 








这 个 宏 声 明 一 个 结构 ， 产 生 它 的 名 子 通 过 前 级 字符 串 bus attr 到 给 定 的 名 子 . 




















任何 属于 一 个 总 线 的 属性 应 当 明 确 使 用 bus create file 来 创建 : 











int bus create file(struct bus type *bus, struct bus attribute *attr); 


遇 性 也 可 被 去 除 ， 使 用 : 





void bus remove file(struct bus type *bus, struct bus attribute *attr); 








1ddbus 驱动 创建 一 个 简单 属性 文件 ， 再 次 ， 包 含 源 码 版 本 号 ，show 方法 和 
bus attribute 结构 设置 如 下 : 





static ssize t show bus version(struct bus type *bus, char *buf) 


{ 
return snprintf(buf, PAGE SIZE, “%s\n”, Version); 
} 


static BUS ATTR(version, S IRUGO, show bus version, NULL); 





创建 属性 文件 在 模块 加 载 时 间 完 成 : 





if (bus create file(&ldd bus type, &bus attr version)) 
printk(KERN NOTICE "Unable to create version attributeW^); 





这 个 调用 创建 一 个 属性 文件 (/sys/busldd/version) fü; lddbus 代码 的 版 本 号 . 
14. 4. 2， 设 备 


在 最 低层 ，Linux 系统 中 的 每 个 设备 由 一 个 struct device 代表 : 





struct device { struct device *parent; struct kobject kobj; char bus id[BUS ID SIZE]; 
struct bus type *bus; struct device driver *driver; void *driver data; void 
Ckrelease) (struct device *dev); /* Several fields omitted */ }; 


有 许多 其 他 的 struct device 成 员 只 对 设备 核心 代码 感 兴趣 .但 是 ， 这 些 成 员 值 得 了 解 : 





struct device *parent 
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设备 的 “parent” 设 备 一 它 所 附着 到 的 设备 ， 在 大 部 分 情况 ， 一 个 父 设备 是 某 种 
总 线 或 者 主 控制 器 .， 如果 parent 是 NULL， 设 备 是 一 个 顶层 设备 ， 这 常常 不 是 你 
所 要 的 . 














struct kobject kobj; 


代表 这 个 设备 并 且 连 接 它 到 层次 中 的 kobject. 注意 ， 作 为 一 个 通用 的 规则 ， 
device->kobj->parent 等 同 于 E le 


char bus id[BUS ID SIZE]; 

















唯一 确定 这 个 总 线 上 的 设备 的 字符 串 ， PCI 设备 ， 例 如 ， 使 用 标准 的 PCI ID 格式 ， 
RAM, BA 设备 ， 和 功能 号 . 


struct bus type *bus; 











zu 





定 设 备 位 于 哪 种 总 线 . 


struct device driver *driver; 


fes, 


党 理 这 个 设备 的 驱动 ; 我 们 查看 struct device driver 在 下 一 


De 








void *driver data; 





一 个 可 能 被 设备 驱动 使 用 的 私有 数据 成 员 . 


void (Ckrelease) (struct device *dev); 





J 


当 对 这 个 设备 的 最 后 引用 被 去 除 时 调用 的 方法 ; CODO] kobject 的 
release 方法 被 调用 .注册 到 核心 的 所 有 的 设备 结构 必须 有 一 个 release 方法 ， 
否则 内 核 打 印 出 慌乱 的 抱怨 














最 少 ，parent，bus_id，bus， 和 release 成 员 必 须 在 设备 结构 被 注册 前 设置 . 


14.4.2.1. 设备 注册 


通常 的 注册 和 注销 函数 在 : 


int device register (struct device *dev); 
void device unregister(struct device *dev); 


我 们 已 经 见 到 1ddbus 代码 如 何 注册 它 的 总 线 类 型 . 但 是 ， 一 个 实际 的 总 线 是 一 个 设备 并 
且 必须 单独 注册 ， 为 简单 起 见 ，1lddpus 模块 只 支持 一 个 单个 虚拟 总 线 ， 因 此 这 个 驱动 在 
编译 时 建立 它 的 设备 : 





static void ldd bus release(struct device *dev) 


{ 
printk(KERN DEBUG “1ddbus releaseW^); 
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struct device ldd bus = { 
.bus id = ^1dd0^ 
.release = ldd bus release 


i 


这 是 顶级 总 线 ， 因 此 parent 和 bus 成 员 留 为 NULL， 我 们 有 一 个 简单 的 ，no-op 
release 方法 ， 并 且 ， 作 为 第 一 个 (并 且 唯 一 ) 总 线 ， 它 的 名 子 时 1ddO. 这 个 总 线 设 备 被 
注册 ， 使 用 : 











ret = device register(&ldd bus); 
if (ret) 
printk(KERN NOTICE "Unable to register ldd0Wn^); 


一 旦 调用 完成 ， 新 总 线 可 在 sysfs 中 /sys/devices 下 面 见 到 .任何 加 到 这 个 总 线 的 设 
备 接着 在 /sys/devices/1dd0 下 显示 . 


14.4.2.2. 设备 属性 











sysfs 中 的 设备 入 口 可 有 属性 .相关 的 结构 是 : 


struct device attribute { 

struct attribute attr; 

ssize t (*show) (struct device *dev, char **buf); 
ssize t (*store) (struct device *dev, const char *buf, 
size t count); 


E 

















这 些 属性 结构 可 在 编译 时 建立 ， 使 用 这 些 宏 : 


DEVICE ATTR(name, mode, show, store); 




















结果 结构 通过 前 级 dev_attr 到 给 定名 子 上 来 命名 ， 属 性 文件 的 实际 管理 使 用 通常 的 函 
数 对 来 处 理 : 





1} 











int device create file(struct device *device, struct device attribute *entry); 
void device remove file(struct device *dev, struct device attribute *attr); 








struct bus type 的 dev attrs 成 员 指向 一 个 缺 省 的 属性 列表 ， 这 些 属性 给 添加 到 总 线 
的 每 个 设备 创建. 


14.4.2.3. iE & E TJ ERA 























设备 结构 包含 设备 模型 核心 需要 的 来 模型 化 系统 的 信息 .大 部 分 子 系统 ， 但 是 ， 跟 踪 关 于 
它们 驻 留 的 设备 的 额外 信息 ， 结 果 ， 对 设备 很 少 由 空 设备 结构 所 代表 ; 相反 ， 这 个 结构 ， 
如 同 kobject 结构 ， 常 常 是 骨 入 一 个 更 高 级 的 设备 表示 中 . 如果 你 查看 struct pci dev 


329 


























Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] [] O O 0O IO [] O Linux[] D] E] UE [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
的 定义 或 者 struct usb device 的 定义 ， 你 会 发 现 一 个 struct device 埋 在 其 中 . 常常 
地 ， 低 层 驱 动 其 至 不 知道 struct device， 但 是 有 例外 . 











lddbus 驱动 创建 它 自己 的 设备 类 型 ( struct 1dd device ) 并 且 期 望 单独 的 设备 驱动 来 
注册 它们 的 设备 使 用 这 个 类 型 ， 它 是 一 个 简单 结构 : 








struct ldd device { 

char *name; 

struct ldd driver *driver; 
struct device dev; 

} 


#define to ldd device(dev) container of(dev, struct ldd device, dev); 





这 个 结构 允许 驱动 提供 一 个 实际 的 名 子 给 设备 ( 这 可 以 清楚 地 不 同 于 它 的 总 线 ID, fef 
于 设备 结构 ) 以 及 一 个 这 些 驱 动 信 息 的 指针 ， 给 真实 设备 的 结构 常常 还 包含 关于 供应 者 信 
息 ， 设 备 型 号 ， 设 备 配置 ， 使 用 的 资源 ， 等 等 ， 可 以 在 struct pci dev (Xlinux/pci. h>) 
或 者 struct usb device (Xlinux/usb.h») 中 找到 好 的 例子 .一 个 方便 的 宏 

( to 1dd device ) 也 为 struct ldd device 定义 ， 使 得 容易 转换 指向 被 嵌入 的 结构 的 
SEFA 1dd_device 指针 . 









































lddbus 输出 的 注册 接口 看 来 如 此 : 


int register ldd device(struct ldd device *ldddev) 

{ 

ldddev->dev. bus = &ldd bus type; 

1dddev->dev. parent = &ldd bus; 

ldddev->dev. release = ldd dev release; 
strncpy(ldddev-^dev.bus id, ldddev-^name, BUS ID SIZE); 
return device register (&ldddev—^dev); 


} 
EXPORT SYMBOL (register ldd device); 











XE, RAIH HOD LT ERA E e ER à. C 单个 驱动 不 应 当 需 要 知道 这 个 )， 并 且 
注册 这 个 设备 到 驱动 核心 。 如 果 我 们 想 添 加 总 线 特定 的 属性 到 设备 ， 我 们 可 在 这 里 做 . 











为 显示 这 个 接口 如 何 使 用 ， 我 们 介绍 另 一 个 例子 驱动 ， 我 们 称 为 sculld， 它 是 在 第 8 GE 
介绍 的 scullp 驱动 上 的 另 一 个 变 体 ， 它 实现 通用 的 内 存 区 设备 ， 但 是 sculld 也 使 用 
Linux 设备 模型 ， 通 过 1ddbus 接口 . 





sculld 驱动 添加 一 个 它 自 己 的 属性 到 它 的 设备 入 口 ; 这 个 属性 ， 称 为 dev， 仅 仅 包含 关 
联 的 设备 号 ， 这 个 属性 可 被 一 个 模块 用 来 加 载 脚 本 或 者 热 插 拔 子 系统 ， 来 自动 创建 设备 记 
点 ， 当 设备 被 添加 到 系统 时 ， 这 个 属性 的 设置 遵循 常用 模式 : 























Static ssize t sculld show dev(struct device *ddev, char *buf) 


{ 
struct sculld dev *dev = ddev-?driver data; 
return print dev t(buf, dev-^cdev. dev); 


} 
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static DEVICE ATTR(dev, S IRUGO, sculld show dev, NULL); 





接着 ， 在 初始 化 时 间 ， 设 备 被 注册 ， 并 且 dev 属性 被 创建 通过 下 面 的 函数 : 





static void sculld register dev(struct sculld dev *dev, int index) 
{ 

sprintf(dev-^devname, “sculld%d”, index); 

dev-?^ldev.name = dev-?devname; 

dev->1dev. driver = &sculld driver; 

dev->1dev. dev.driver data = dev; 

register ldd device (&dev-^ldev); 

device create file(&dev->ldev. dev, &dev attr dev); 


} 











注意 ， 我 们 使 用 driver data 成 员 来 存储 指向 我 们 上 自己 的 内 部 的 设备 结构 的 指针 . 
14. 4. 3， 设 备 驱动 
设备 模型 跟踪 所 有 对 系统 已 知 的 驱动 ， 这 个 跟踪 的 主要 原因 是 使 驱动 核心 能 匹配 驱动 和 新 


设备 ,一旦 驱动 在 系统 中 是 已 知 的 对 象 ， 但 是 ， 许 多 其 他 的 事情 变 得 有 可 能 .设备 驱动 可 
输出 和 任何 特定 设备 无 关 的 信息 和 配置 变量 ， 例 如 : 


























驱动 由 下 列 结构 定义 : 


struct device driver { 

char *name; 

struct bus type **bus; 

struct kobject kobj; 

struct list head devices; 

int (probe) (struct device *dev); 

int Ckremove) (struct device *dev); 
void Ckshutdown) (struct device *dev); 


}; 


再 一 次 ， 几 个 结构 成 员 被 忽略 ( 全 部 内 容 见 《linux/device.h> ). XE, name 是 驱动 的 
名 子 ( 它 在 sysfs 中 出 现 ), bus 是 这 个 驱动 使 用 的 总 线 类 型 ，kobj 是 必然 的 kobject, 
devices 是 当前 绑 定 到 这 个 驱动 的 所 有 设备 的 列表 ，probe 是 一 个 函数 被 调用 来 查询 一 个 
特定 设备 的 存在 (以 及 这 个 驱动 是 否 可 以 使 用 它 )，remove 当 设 备 从 系统 中 去 除 时 被 调用 ， 
shutdown 在 关闭 时 被 调用 来 关闭 设备 . 

















使 用 device driver 结构 的 函数 的 形式 ， 现 在 应 当 看 来 是 类 似 的 (因此 我 们 快速 涵盖 它 
4D. 注册 函数 是 : 


int driver register(struct device driver *drv); 
void driver unregister(struct device driver *drv); 





通常 的 属性 结构 在 : 








struct driver attribute { 
struct attribute attr; 
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ssize t (*show) (struct device driver *drv, char *buf) ; 
ssize t (*store) (struct device driver *drv, const char *buf, 
size t count); 

E 
DRIVER ATTR (name, mode, show, store); 














以 及 属性 文件 以 通常 的 方法 创建 : 


int driver create file(struct device driver *drv, struct driver attribute *attr); 
void driver remove file(struct device driver *drv, struct driver attribute *attr); 


bus type 结构 含有 一 个 成 员 ( drv_attrs ) 指向 一 套 缺 省 属性 ， 对 所 有 关联 到 这 个 总 线 
的 驱动 都 创建 . 


14.4.3.1. IRRA 








下 








如 同 大 部 分 驱动 核心 结构 的 情形 ，device driver 结构 常常 被 发 现 般 到 一 个 更 高 级 的 ， 总 
线 特 定 的 结构 .1ddbus 子 系统 不 会 和 这 样 的 趋势 相反 ， 因 此 它 已 定义 了 它 自 己 的 
1dd driver 结构 : 














struct ldd driver { 

char *version; 

struct module **module; 

struct device driver driver; 

struct driver attribute version attr; 
Hn 


define to ldd driver(drv) container of(drv, struct ldd driver, driver); 





这 里 ， 我 们 要 求 每 个 驱动 提供 特定 当前 软件 版 本 ， 并 且 lddbus 输出 这 个 版 本 字 串 为 它 知 
道 的 每 个 驱动 总 线 特定 的 驱动 注册 函数 是 : 








int register ldd driver(struct ldd driver *driver) 


{ 


int ret; 

driver->driver.bus = &ldd bus type; 

ret = driver register (&driver-^driver); 
if (ret) 

return ret; 

driver— version attr. attr. name = "version"; 

attr. owner = driver->module; 
attr. mode = S IRUGO; 

show = show version; 

. store = NULL; 


 file(&driver-—^driver, &driver->version attr); 


driver-?version att 
driver-?version att 
driver-?version att 
driver-?version att 





oOHHRHHHR 


return driver creat 


} 





分 只 注册 低级 的 device driver 结构 到 核心 ; 剩 下 的 建立 版 本 属性 , 
行 时 被 创建 ， 我 们 不 能 使 用 DRIVER ATTR ZZ; 反之 ， 











这 个 函数 的 第 一 部 
因为 这 个 属性 在 运 
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driver attribute 结构 必须 手工 填充 ， 注 意 我 们 设 定 属性 的 拥有 者 为 驱动 模块 ， 不 是 
lddbus 模块 ; 这 样 做 的 理由 是 可 以 在 为 这 个 属性 的 show 函数 的 实现 中 见 到 : 

















static ssize t show version(struct device driver *driver, char *buf) 
{ 

struct ldd driver *ldriver = to ldd driver (driver); 

sprintf (buf, “%s\n”, ldriver-^version); 

return strlen (buf) ; 


} 











有 人 可 能 认为 属性 拥有 者 应 当 是 1ddbus 模块 ， 因 为 实现 这 个 属性 的 函数 在 那里 定义 ， 这 
个 函数 ， 但 是 ， 是 使 用 驱动 自身 所 创建 的 1dd_driver 结构 ， 如果 那个 结构 在 一 个 用 户 空 
间 进 程 试 图 读 取 版 本 号 时 要 消失 ， 事 情 会 变 得 麻烦 ， 指 定 驱 动 模块 作为 属性 的 拥有 者 阻止 
了 模块 被 抒 载 ， 在 用 户 空 间 保持 属性 文件 打开 时 .因为 每 个 驱动 模块 创建 一 个 对 1ddbus 
模块 的 引用 ， 我 们 能 确信 1ddbus 不 会 在 一 个 不 合适 的 时 间 被 卸载 . 





















































为 完整 起 见 ，sculld 创建 它 的 1dd_driver 结构 如 下 : 


static struct ldd driver sculld driver = { .version = “$Revision: 1.1 
$^, .module = THIS MODULE, .driver = { .name = ”sculld”, }, }; 


一 个 简单 的 对 register 1dd driver 的 调用 添加 它 到 系统 中 . 一旦 完成 初始 化 ， 驱 动 信 
县 可 在 sysfs 中 见 到 : 





$ tree /sys/bus/l1dd/drivers 


/sys/bus/1dd/drivers 

'— sculld 
|-- sculld0 -> ../../../.. /devices/1dd0/sculld0 
|-- sculldl -> ../../. . /.. /devices/1dd0/sculldl 
|-- sculld2 -> ../../../.. /devices/1dd0/sculld2 
|-- sculld3 -> ../../.. /.. /devices/1dd0/sculld3 
'— version 




















和 这 个 总 线 的 逻辑 名 子 ， 当 然 ， 应 当 是 “sbus“， 但 是 这 个 名 子 已 经 被 一 个 真实 的 ， 物 理 总 
线 采 用 . 


14.5. 类 


我 们 在 本 章 中 要 考察 最 后 的 设备 模型 概念 是 类 . 一 个 类 是 一 个 设备 的 高 级 视图 ， 它 抽象 出 
低级 的 实现 细节 ， 张 动 可 以 见 到 一 个 SCSI 磁盘 或 者 一 个 ATA 磁盘 ， 在 类 的 级 别 ， 它 们 都 
是 磁盘 ， 类 允许 用 户 空 间 基于 它们 做 什么 来 使 用 设备 ， 而 不 是 它们 如 何 被 连接 或 者 它们 如 
何 工作 . 




















几乎 所 有 的 类 都 在 sysfs 中 在 /sys/class 下 出 现 ， 因 此 ， 例 如 ， 所 有 的 网 络 接口 可 在 
/sys/class/net 下 发 现 ， 不 管 接 口 类 型 ， 输入 设备 可 在 /sys/class/input 下 ， 以 及 串 
行 设备 在 /sys/class/tty， 一 个 例外 是 块 设备 ， 由 于 历史 的 原因 在 /sys/block. 
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类 成 员 关 系 常 党 由 高 级 的 代码 处 理 ， 不 必要 驱动 的 明确 的 支持 24 sbull 驱动 (4 见 16 
章 ) 创建 一 个 虚拟 磁盘 设备 ， 它 自动 出 现在 /sys/block. snull 网 络 驱动 ( 见 17 章 ) 没 
有 做 任何 特殊 事情 给 它 的 接口 在 /sys/class/net 中 出 现 . 将 有 多 次 ， 但 是 ， 当 驱动 结束 
直接 处 理 类 . 






























































在 许多 情况 ， 类 子 系统 是 最 好 的 输出 信息 到 用 户 空间 的 方法 ， 当 一 个 子 系 统 创建 一 个 类 ， 
它 完 全 拥有 这 个 类 ， 因 此 没有 必要 担心 哪个 模块 拥有 那里 发 现 的 属性 . 它 也 用 极 少 的 时 间 
徘徊 于 更 加 面向 硬件 的 sysfs 部 分 来 了 解 ， 它 不 是 一 个 直接 浏览 的 好 地 方 . 用 户 会 更 加 
高 兴 地 在 /sys/class/some-widget 中 发 现 信 息 ， 而 不 是 ， 
/sys/device/pci0000:00/0000:00:10. 0/usb2/2-0: 1. 0. 























驱动 核心 输出 2 个 清晰 的 接口 来 管理 类 class_simple 函数 设计 来 尽 可 能 容易 地 添加 新 
类 到 系统 . 它们 的 主要 目的 ， 常 常 ， 是 暴露 包含 设备 号 的 属性 来 使 能 设备 节点 的 上 自动 创建 . 
常用 的 类 接口 更 加 复杂 但 是 同时 提供 更 多 特性 .我 们 从 简单 版 本 开始 . 






































14.5.1. class simple 接口 





class simple 接口 意图 是 易于 使 用 ， 以 至 于 没 人 会 抱怨 没有 暴露 至 少 一 个 包含 设备 的 被 
分 配 的 号 的 属性 ， 使 用 这 个 接口 只 不 过 是 一 对 函数 调用 ， 没 有 通常 的 和 Linux 设备 模型 
关联 的 样板 . 























第 一 步 是 创建 类 自身 .使 用 一 个 对 class simple create 的 调用 来 完成 : 





struct class simple *class simple create(struct module *owner, char *name); 














这 个 函数 使 用 给 定 的 名 子 创 建 一 个 类 ， 这 个 操作 可 能 失败 ， 当 然 ， 因 此 在 继续 之 前 返回 值 
应 当 一 直 被 检查 ( 使 用 IS_ERR， 在 第 1 章 的 ”指针 和 错误 值 一 节 中 描述 过 ). 




















一 个 简单 的 类 可 被 销毁 ， 使 用 : 


void class simple destroy(struct class simple **cs); 








创建 一 个 简单 类 的 真实 目的 是 添加 设备 给 它 ; 这 个 任务 使 用 : 


struct class device *class simple device add(struct class simple *cs, dev t 
devnum, struct device *device, const char *fmt, ...); 





这 里 ，cs 是 之 前 创建 的 简单 类 ，devnum 是 分 配 的 设备 号 ，device 是 代表 这 个 设备 的 
struct device， 其 他 的 参数 是 一 个 printk- 风 格 的 格式 串 和 参数 来 创建 设备 名 子 ， 这 个 
调用 添加 一 项 到 类 ， 包 含 一 个 属性 ，dev， 含 有 设备 号 ， 如 果 设 备 参数 是 非 NULL， 一 个 符 
号 连接 ( 称 为 device ) 指 向 在 /sys/devices 下 的 设备 的 入 口 . 











可 能 添加 其 他 的 属性 到 设备 入 口 . 它 只 是 使 用 class_device_create_file， 我 们 在 下 一 
节 和 完整 类 子 系统 所 剩 下 的 内 容 讨论 . 











当 设 备 进出 时 类 产生 热 插 拔 事件 ， 如 果 你 的 驱动 需要 添加 变量 到 环境 中 给 用 户 空 间 事件 处 
理 者 ， 可 以 建立 一 个 热 插 拔 回调 ， 使 用 : 
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int class simple set hotplug(struct class simple *cs, 
int (khotplug) (struct class device *dev, 
char ***envp, int num envp, 
char *buffer, int buffer size)); 





当 你 的 设备 离开 时 ， 类 入 口 应 当 被 去 除 ， 使 用 : 


void class simple device remove(dev t dev); 








注意 ， 由 class simple device add 返回 的 class device 结构 这 里 不 需要 ; 设备 号 ( 它 
当然 应 当 是 唯一 的 ) 足 够 了 . 


14. 5. 2， 完 整 的 类 接口 
class simple 接口 满足 许多 需要 ， 但 是 有 时 需要 更 多 灵活 性 下面 的 讨论 描述 如 何 使 用 


完整 的 类 机 制 ，class_simple 正 是 基于 此 它 是 简短 的 : 类 函数 和 结构 遵循 设备 模型 其 
他 部 分 相同 的 模式 ， 因 此 这 里 没有 什么 真正 是 新 的 . 























14.5.2.1. 管理 类 


一 个 类 由 一 个 struct class 的 实例 来 定义 : 


struct class ( 

char *name; 

struct class attribute *class attrs; 

struct class device attribute *class dev attrs; 

int (Ckhotplug) (struct class device *dev, char **envp, 
int num envp, char *buffer, int buffer size); 

void (*release) (struct class device *dev); 

void (*class release) (struct class *class); 

/* Some fields omitted */ 


} 








每 个 类 需要 一 个 唯一 的 名 子 ， 它 是 这 个 类 如 何在 /sys/class 中 出 现 ， 当 这 个 类 被 注册 ， 
由 class attrs 所 指向 的 数组 中 列 出 的 所 有 属性 被 创建 还 有 一 套 缺 省 属性 给 每 个 添加 
到 类 中 的 设备 ; class dev attrs 指向 它们 ， 有 通常 的 热 插 拔 函数 来 添加 变量 到 环境 中 ， 
当 事 件 产生 时 .还 有 2 个 释放 方法 : release 在 无 论 何 时 从 类 中 去 除 一 个 设备 时 被 调用 ， 
而 class release 在 类 自己 被 释放 时 调用 . 


























注册 函数 是 : 


int class register(struct class *cls); 
void class unregister(struct class *cls); 








使 用 属性 的 接口 不 应 当 在 这 点 吓人 : 





struct class attribute { 
struct attribute attr; 
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ssize t (*show) (struct class *cls, char *buf) ; 
ssize t (*store) (struct class *cls, const char *buf, size t count); 
i4 
CLASS ATTR(name, mode, show, store); 
int class create file(struct class *cls, const struct class attribute *attr); 
void class remove file(struct class *cls, const struct class attribute *attr); 


14.5.2.2. 类 设备 


一 个 类 的 真正 目的 是 作为 一 个 是 该 类 成 员 的 设备 的 容器 .一 个 成 员 由 struct 
class device 来 表示 : 


struct class device { 
struct kobject kobj; 

struct class *class; 

struct device *dev; 

void *class data; 

char class id[BUS ID SIZE]; 
m 








class id 成 员 持 有 设备 名 子 ， 如 同 它 在 sysfs 中 的 一 样 . class 指针 应 当 指 向 持 有 这 个 
设备 的 类 ， 并 且 dev 应 当 指向 关联 的 设备 结构 ， 设置 dev 是 可 选 的 ; 如 果 它 是 非 NULL, 
它 用 来 创建 一 个 符号 连接 从 类 入 口 到 对 应 的 在 /sys/devices 下 的 入 口 ， 使 得 易于 在 用 户 
闪 间 我 到 设备 类 门 ， 关 可 以 使 用 class data KIS 个 私有 指针 . 




















通常 的 注册 函数 已 经 被 提供 : 


int class device register(struct class device *cd); 
void class device unregister(struct class device *cd); 


类 设备 接口 也 允许 重 命名 一 个 已 经 注册 的 入 口 : 
int class device rename (struct class device *cd, char *new name); 


类 设备 入 口 有 属性 : 





struct class device attribute { 

struct attribute attr; 

ssize t (*show) (struct class device *cls, char *buf); 
ssize t (*store) (struct class device *cls, const char *buf, 
size t count); 


E 


CLASS DEVICE ATTR(name, mode, show, store); 

int class device create file(struct class device *cls, const struct class device attribute 
*attr); 

void class device remove file(struct class device *cls, const struct 

class device attribute *attr); 
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一 个 缺 省 的 属性 集合 ， 在 类 的 class dev attrs 成 员 ， 被 创建 当 类 设备 被 注册 时 ; 
class device create file 可 用 来 创建 额外 的 属性 ， 属 性 还 可 以 被 加 入 到 由 
class simple 接口 创建 的 类 设备 . 


























14.5.2.3. 类 接口 


类 子 系统 有 一 个 额外 的 在 Linux 设备 模型 其 他 部 分 找 不 到 的 概念 ， 这 个 机 制 称 为 一 个 接 
口 ， 但 是 它 是 ， 也 许 ， 最 好 作为 一 种 触发 机 制 可 用 来 在 设备 进入 或 离开 类 时 得 到 通知 . 





一 个 接口 被 表示 ， 使 用 : 


struct class interface { 

struct class *class; 

int Ckadd) (struct class device *cd); 
void Ckremove) (struct class device *cd); 


^ 





接口 可 被 注册 或 注销 ， 使 用 : 


int class interface register(struct class interface *intf); 
void class interface unregister(struct class interface *intf); 








一 个 接口 的 功能 是 简单 明了 的 . 无论 何 时 一 个 类 设备 被 加 入 到 在 class interface 结构 
中 指定 的 类 时 ， 接 口 的 add 函数 被 调用 ， 这 个 函数 可 进行 任何 额外 的 这 个 设备 需要 的 设 
置 ; 这 个 设置 常常 采取 增加 更 多 属性 的 形式 ， 但 是 其 他 的 应 用 都 可 能 当 设 备 被 从 类 中 去 
BR, remove 方法 被 调用 来 进行 任何 需要 的 清理 
































可 注册 多 个 接口 给 一 个 类 . 
14. 6， 集 成 起 来 


为 更 好 理解 驱动 模型 做 什么 ， 让 我 们 通 览 一 个 设备 在 内 核 中 的 生命 周期 的 阶段 ， 我 们 描述 
PCI 子 系 统 如 何 与 驱动 模型 交互 ， 一 个 驱动 如 何 被 加 入 和 去 除 的 基本 概念 ， 以 及 一 个 设备 
如 何 从 系统 中 被 加 入 和 去 除 ， 这 些 细节 ， 即 便 特别 地 描述 PCI 内 核 代码 ， 适 用 所 有 其 他 
的 使 用 驱动 核心 来 管理 它们 的 驱动 和 设备 的 子 系统 . 


















































PCI 核心 ， 驱 动 核心 和 单独 的 PCI 驱动 之 间 的 交互 是 非常 复杂 ， 如 同 图 创建 设备 过 程 所 
示 . 


图 14. 3， 创 建设 备 过 程 
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initialize 
device 
register 
kobject 
dev_hotplug 
pci_hotplug 





call_usermodehelper 


" 

probe N —— 
driver : - 

initializes bind device create 
device to driver sysfs links 


PCI driver 


pd dewce probe 





























14. 6. 1， 添 加 一 个 设备 


PCI 子 系统 声明 一 个 单个 struct bus type 称 为 pci_bus_type， 它 使 用 下 列 值 初始 化 : 


struct bus type pci bus type = { 


.name = “pci”, 

.match = pci bus match, 
.hotplug = pci hotplug, 
.suspend = pci device suspend, 
.resume = pci device resume, 


.dev attrs = pci dev attrs, }; 


这 个 pci bus type 变量 被 注册 到 驱动 内 核 ， 当 PCI 子 系统 通过 对 bus register 的 调 
用 被 加 载 入 内 核 时 ， 当 这 个 发 生 时 ， 驱 动 核心 创建 一 个 sysfs 目录 在 /sys/bus/pci 里 ， 
它 包含 2 个 目录 : devices 和 drivers. 











所 有 的 PCI 驱动 必须 定义 一 个 struct pci_driver 变量 ， 它 定义 了 这 个 PCI 驱动 能 
做 的 不 同 的 功能 (更 多 的 关于 PCI 子 系 统 和 如 何 编 写 一 个 PCI 驱动 的 信息 ， 见 12 章 ). 
那个 结构 包含 一 个 struct device driver, CREW PC 核心 初始 化 ， 当 PCI 驱动 被 
注册 时 . 


/* initialize common driver fields */ 
drv-^driver.name = drv-?name; 

drv-2driver.bus = &pci bus type; 

drv-?2driver. probe = pci device probe; 
drv-2driver.remove = pci device remove; 
drv-»driver. kobj. ktype = &pci driver kobj type; 
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这 个 代码 为 驱动 建立 总 线 来 指向 pci bus type 以 及 使 probe 和 remove 函数 来 指 癌 

PCI 核心 内 的 函数 ， 驱 动 的 kobject 的 ktype 被 设置 为 变量 pci driver kobj type, 
为 使 PCI 驱动 的 属性 文件 正常 工作 .接着 PCI 核心 注册 PCI 驱动 到 驱动 核心 : 

















/* register with core */ 
error = driver register (&drv-^driver); 


驱动 现在 准备 好 被 绑 定 到 任何 一 个 它 支 持 的 PCI 设备 . 





PCI 核心 ， 在 来 自 特定 结构 的 实际 和 PCI 总 线 交 谈 的 代码 的 帮助 下 ， 开 始 探测 PCI 地 址 
空间 ， 查 找 所 有 的 PCI 设备 ， 当 一 个 PCI 设备 被 发 现 ，PCI 核心 在 内 存 中 创建 一 个 
struct pci dev 类 型 的 新 变量 struct pci dev 结构 的 一 部 分 看 来 如 下 : 

















struct pci dev { 

fx... */ 

unsigned int devfn; 

unsigned short vendor; 

unsigned short device; 

unsigned short subsystem vendor; 
unsigned short subsystem device; 





unsigned int class; 

/* ... */ 

struct pci driver *driver; 
/* ... */ 

struct device dev; 


fx... */ 


E 





这 个 PCI 设备 的 总 线 特 定 的 成 员 被 PCI 核心 初始 化 ( devfn，vendor，device， 和 其 他 
成 员 )， 并 且 struct device 变量 的 parent 变量 被 设置 为 这 个 PCI 设备 所 在 的 PCI 总 
线 设备 .bus 变量 被 设置 指向 pci bus type 结构 ， 接 下 来 name 和 bus id 变量 被 设置 ， 
根据 读 自 PCI 设备 的 name 和 ID. 














在 PCI 设备 结构 被 初始 化 之 后 ， 设 备 被 注册 到 驱动 核心 ， 使 用 : 
device register(&dev->dev) ; 


在 device register 函数 中 ， 驱 动 核心 初始 化 设备 的 许多 成 员 ， 注 册 设 备 的 kobject 到 

kobject 核心 ( 它 导 致 一 个 热 插 拔 事件 产生 ， 但 是 我 们 在 本 章 后 面 讨 论 ) ， 接 着 添加 设备 
到 驱动 的 parent 所 持 有 的 设备 列表 中 . 完成 这 个 使 所 有 的 设备 可 被 以 正确 的 顺序 浏览 ， 
直 知 道 每 一 个 位 于 设备 层次 中 哪里 . 

















设备 接着 被 添加 到 所 有 设备 的 总 线 特定 的 列表 中 ， 在 本 例 中 ，pci_bus_type 列表 .接着 
注册 到 这 个 总 线 的 所 有 驱动 的 列表 被 检查 ， 并 且 总 线 的 匹配 功能 被 调用 给 每 个 驱动 ， 指 定 
这 个 设备 .对 于 pci bus type 总 线 ， 匹 配 函 数 被 PCI 核心 设 定 为 指向 pci bus match 
函数 ， 在 设备 被 提交 给 驱动 核心 前 . 
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pci bus match 函数 转换 张 动 核心 传递 给 它 的 struct device 为 一 个 struct pci dev. 
它 还 转换 struct device driver 为 一 个 struct pci driver ， 并 接着 查看 设备 的 PCI 
设备 特定 信息 和 驱动 ， 看 是 否 这 个 驱动 声明 它 能 





返回 0 给 驱动 核心 ， 并 且 了 驱动 核心 移 向 列表 中 的 下 一 个 驱动 . 
































够 文 持 这 类 设备 ， 如果 匹 配 不 成 功 ， 函 数 


如 果 匹 配 成 功 ， 函 数 返回 1 给 驱动 核心 .这 使 驱动 核心 设置 struct device 中 的 驱动 指 
针 指 向 这 个 驱动 ， 并 且 接 着 调用 在 struct device driver 中 特定 的 probe 函数 . 


早 些 时 候 ， 在 PCI 驱动 注册 到 驱动 核心 之 前 ，probe 变量 被 设 为 指向 pci device probe 
函数 .这 个 函数 转换 (又 一 次 ) struct device 为 一 个 struct pci_dev， 在 设备 中 设置 的 
struct driver 为 一 个 struct pci driver. 它 再 次 验证 这 个 驱动 声明 它 可 以 支持 这 个 设 


备 ( 这 意味 着 一 个 重复 的 额外 检查 ， 茶 些 未 知 的 原因 )， 递 








曾 设备 的 引用 计数 ， 并 且 接 着 





调用 PCI 驱动 的 probe 函数 ， 用 一 个 指向 它 应 当 被 绑 定 到 的 struct pci dev 结构 的 指 


fF. 


如 果 这 个 PCI 驱动 的 probe 函数 认为 它 不 能 处 
的 错误 值 ， 这 个 值 被 传递 回 驱 动 核心 并 且 使 它 继 续 深入 设备 列表 来 和 这 个 设备 




















LE 这 个 设备 由 于 某 些 原 因 ， 它 返回 一 个 负 














匹配 一 个 . 





如 果 这 个 probe 函数 能 够 认领 这 个 设备 ， 它 做 所 有 的 需要 的 初始 化 来 正确 处 理 这 个 设备 ， 


并 且 接 着 它 返 回 0 给 驱动 核心 。 这 使 驱动 核心 来 添加 设备 到 当前 被 这 个 特定 驱动 所 绑 定 

















的 所 有 设备 列表 ， 并 且 创 建 一 个 符号 连接 到 这 个 它 现 在 控制 的 设备 ， 在 这 个 驱动 在 sysfs 
的 目录 . 这 个 符号 连接 允许 用 户 准确 见 到 哪个 设备 被 绑 定 到 哪个 设备 ， 这 可 被 见 到 ， 如 : 


$ tree /sys/bus/pci 
/ sys/bus/pci/ 
— devices 
— 0000:00:00. 
—— 0000:00:00. 
—— 0000:00:00. 
—— 0000:00:02. 
—— 0000:00:04. 
—— 0000:00:06. 
—— 0000:00:07. 
—— 0000:00:09. 
—— 0000:00:09. 
—— 0000:00:09. 
—— 0000:00:0c. 
—— 0000:00:0f. 
—— 0000:00:10. 
—— 0000:00:12. 
—— 0000:00:13. 
`—— 0000:00:14. 
^— drivers 
— ALI15x3 IDE 

^—— 0000:00:0f.0 
— ehci hed 

^—— 0000:00:09. 2 
— ohci_hcd 

|-- 0000:00:02. 0 

|-- 0000:00:09. 0 

`—— 0000:00:09. 








Le E e E e E e E e Ee ee E e E s e E a 





n 


DR 











DR 





. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
. /devices/pci0000: 
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00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 
00/0000: 


. /. . /devices/pci0000 00/0000: 
. /. . /devices/pci0000:00/0000: 
. /. . /devices/pci0000:00/0000: 


. /. . /devices/pci0000 00/0000: 
. /. . /devices/pci0000:00/0000: 
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|-- orinoco pci 
| `=- 0000:00:12.0 -> .. 7. . /.. /.. /devices/pci0000:00/0000:00:12. 0 
|-- radeonfb 
| “一 0000:00:14. 0 -> .. 7. . /.. /.. /devices/pci0000:00/0000:00:14. 0 
| 一 serial 
^— trident 
'— 0000:00:04.0 -> ../.. /. . /. . /devices/pci0000:00/0000:00:04. 0 


14. 6. 2， 去 除 一 个 设备 


一 个 PCI 可 用 多 个 不 同 的 方法 被 从 系统 中 去 除 . 所 有 的 card-bus 设备 在 一 个 不 同 的 物 
时 因素 上 是 真正 的 PCI 设备 ， 并 且 内 核 PCI 核心 不 区 分 它们 . 允许 在 机 器 运行 时 加 减 
PCI 设备 的 系统 正 变 得 更 加 善 遍 ， 并 且 Linux 支持 它们 . 还 有 一 个 伪 PC 热 插 拔 驱动 允 
许 开 发 者 来 测试 看 是 否 他 们 的 PCI 驱动 正确 处 理 系 统 运行 中 的 设备 去 除 . 这 个 模块 称 为 
fakephp 并 且 使 内 核 认为 PCI 设备 已 消失 ， 但 是 它 不 允许 用 户 物理 上 从 系统 中 去 除 一 个 
PCI 设备 ， 这 个 系统 没有 合适 的 硬件 来 这 样 做 ， 见 这 个 驱动 的 文档 来 获取 更 多 关于 如 何 使 
用 它 测试 你 的 PCI 驱动 的 信息 . 











EE 


















































PCI 核心 发 挥 了 不 少 于 它 增 加 设备 的 努力 到 去 除 它 ， 当 一 个 PCI 设备 要 被 去 除 ， 
pci remove bus device 函数 被 调用 ， 这 个 函数 做 一 些 PCI- 特 定 的 清理 和 日 常 工作 ， 并 
且 接 着 使 用 一 个 指向 struct pei dev 的 struct device 成 员 的 指针 调用 


device unregister PAZ. 














在 device unregister 函数 中 ， 驱 动 核心 只 从 绑 定 到 这 个 设备 (如果 有 ) 的 驱动 解除 连接 
sysfs 文件 ， 从 它 的 内 部 设备 列表 中 去 除 这 个 设备 ， 并 且 使 用 指 疝 包含 在 struct device 
结构 中 的 struct kobject 的 指针 调用 kobject del. 这 个 函数 用 一 个 hotplug 调用 到 
用 户 空间 来 声明 kobject 现在 被 从 系统 中 去 除 ， 并 且 接 着 它 删除 所 有 的 和 kobject 关联 
的 sysfs 文件 以 及 这 个 kobject 起 初 已 创建 的 sysfs 目录 自身 . 


























kobject del 函数 也 去 除 设 备 自 身 的 kobject 引用 . 如 果 那 个 引用 是 最 后 一 个 ( 意味 着 
没有 用 户 空间 文件 为 这 个 sysfs 的 设备 入 口 而 打开 )， 接 着 是 PCI 设备 自身 的 release 
函数 ，pci release dev, EUH]. 这 个 函数 只 释放 struct pci dev 占用 的 内 存 . 





此 后 ， 所 有 的 和 这 个 设备 关联 的 sysfs 入 口 被 去 除 ， 并 且 和 这 个 设备 关联 的 内 存 被 释放 . 
PCI 设备 现在 完全 从 系统 中 被 去 除 . 


14. 6. 3， 添 加 一 个 驱动 


一 个 PCI 驱动 被 添加 到 PCI 核心 ， 当 它 调用 pci register driver 函数 时 ， 这 个 函数 
只 初始 化 struct device driver 结构 ， 这 个 结构 包含 在 struct pci driver 结构 里 面 ， 
如 同 之 前 在 关于 添加 设备 的 一 节 中 提 过 的 .接着 PCI 核心 使 用 指向 包含 在 struct 

pci driver 结构 中 的 sturct device driver 结构 的 指针 调用 在 驱动 核心 的 

driver register PK. 





























driver register 国 数 初 始 化 在 struct device driver 结构 中 的 几 个 锁 ， 并 且 接 着 调用 
bus add driver 函数 ， 这 个 函数 进行 下 面 的 步骤 : 





。 查找 驱动 要 被 关联 的 总 线 ， 如 果 这 个 总 线 被 发 现 ， 函 数 立 刻 返 回 . 


341 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu,Fedora,SUSEI O O O 0O IO [] O Linux[] D] E] UE [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
。 了 驱动 的 sysfs 目录 被 创建 ， 基 于 驱动 的 名 子 和 它 被 关联 的 总 线 . 
。 总 线 的 内 部 锁 被 获取 ， 接 着 所 有 的 已 经 注册 到 总 线 的 设备 被 检查 ， 匹 配 函 数 为 它们 
被 调用 ， 就 象 当 一 个 新 设备 被 添加 时 ， 如 果 那 个 匹配 函数 成 功 ， 接 着 剩 下 的 绑 定 过 
程 发 生 ， 如 同 在 前 面 章节 描述 过 的 . 


14.6.4. 去除 一 个 驱动 
去 除 一 个 驱动 是 一 个 非常 容易 的 动作 ， 对 于 一 个 PCI 张 动 ， 驱 动 调 用 


pci unregister driver K%. 这 个 函数 只 调用 驱动 核心 水 数 driver_unregister， 使 用 
一 个 指向 传递 给 它 的 struct pci driver 的 struct devie driver 的 指针 . 





























deiver unregister 函数 处 理 一 些 基本 的 日 常 工作 ， 通 过 清理 某 些 在 sysfs 树 中 连接 到 
这 个 驱动 入 口 的 sysfs 属性 .， 它 接着 列举 所 有 的 连接 到 这 个 驱动 的 设备 并 且 为 它 调 用 
release 函数 . 发生 这 个 恰好 象 前 面 提 过 的 release 函数 ， 当 一 个 设备 从 系统 中 去 除 时 . 


























在 所 有 的 设备 从 驱动 中 被 解 绑 定 后 ， 驱 动 代码 完成 这 个 独特 的 逻辑 : 





down(&drv-^unload sem); 
up(&drv-^unload sem); 





这 就 在 返回 函数 的 调用 者 之 前 完成 ， 这 个 锁 被 获取 因为 代码 需要 等 待 所 有 的 对 这 个 驱动 的 
引用 计数 在 它 可 安全 返回 前 挤 到 0， 需 要 这 样 是 因为 driver unregister 函数 最 普遍 被 
作为 一 个 要 御 载 的 模块 退出 的 路 径 来 调用 ， 模 块 需要 保留 在 内 存 只 要 驱动 被 设备 引用 并 且 
等 待 这 个 锁 被 释放 ， 这 允许 内 核 知 道 当 可 以 安全 从 内 存 去 除 驱 动 时 . 


14.7. WHI 


有 2 个 不 同方 法 来 看 热 插 拔 .内 核 看 待 热 插 拔 为 硬件 ， 内 核 和 内 核 驱 动 之 间 的 交互 ， 用 
户 看 符 热 插 拔 是 内 核 和 用 户 空 间 的 通过 称 为 /sbin/hotplug 的 程序 的 交互 . 这 个 程序 被 
内 核 调用 ， 当 它 想 通知 用 户 空 间 某 种 热 插 拔 事件 刚刚 在 内 核 中 发 生 . 


14. 7. 1. 动态 设备 


术语 “ 热 插 拔 “ 最 普遍 使 用 的 意义 产生 于 当 讨 论 这 样 的 事实 时 ， 几 乎 所 有 的 计算 机 系统 现在 
能 够 处 理 当 系统 有 电 时 设备 的 出 现 或 消失 ， 这 非常 不 同 于 只 是 几 年 前 的 计算 机 系统 ， 那 时 
程序 员 知 道 他 们 只 需要 在 启动 时 扫描 所 有 的 设备 ， 并 且 他 们 从 不 必 担 心 他 们 的 设备 消失 直 
到 整个 机 器 被 关 电 ， 现 在 ， 随 着 USB 的 出 现 ，CardBus，PCMCIA，IEEE1394， 和 PCI 热 
插 拔 控制 器 ，Linux 内 核 需 要 能 够 可 靠 地 运行 不 管 什 么 硬件 从 系统 中 增加 或 去 除 . 这 产生 
了 一 个 额外 的 负担 给 设备 驱动 作者 ， 因 为 现在 他 们 必须 一 直 处 理 一 个 没有 任何 通知 而 突然 
从 地 下 冒 出 来 的 设备 . 











































































































每 个 不 同 的 总 线 类 型 以 不 同方 式 处 理 一 个 设备 的 消失 .例如 ， 当 一 个 PCI, CardBus, 或 
者 PCMCIA 设备 从 系统 中 去 除 ， 在 驱动 通过 它 的 去 除 函 数 被 通知 之 前 常常 是 一 会 儿 ， 在 发 
生 这 个 前 ， 所 有 的 从 PCI 的 读 返 回 所 有 的 位 集合 ， 这 意味 着 驱动 需要 一 直 检查 它们 从 
PCI 总 线 读 取 的 值 并 且 能 够 正确 处 理 Oxff 值 . 
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这 个 的 一 个 例子 可 在 drivers/usb/host/ehci-hed. c 驱动 中 见 到 ， 是 一 个 PCI 驱动 给 
一 个 UBS 2.0 (高 速 ) 控制 卡 . 它 有 下 面 的 代码 在 它 的 主 握手 循环 中 来 探测 是 否 控制 块 已 经 
从 系统 中 去 除 . 





result = readl (ptr); 
if (result == ^(u32)0) /* card removed */ 
return —-ENODEV; 


对 于 USB 驱动 ， 当 一 个 USB 驱动 被 绑 定 到 的 设备 被 从 系统 中 去 除 ， 任 何 挂 起 的 已 被 提交 
给 设备 的 urbs 以 错误 -ENODEV 失败 . 如 果 发 生 这 个 情况 ， 驱 动 需 要 识别 这 个 错误 并 且 
正确 清理 任何 挂 起 的 IZ0 . 





























可 热 插 拔 的 设备 不 只 限于 传统 的 设备 ， 例 如 鼠标 ， 键 盘 ， 和 网 卡 . 有 大 量 的 系统 现在 支持 
整个 CPU 和 内 存 条 的 移出 ， 幸 运 地 ，Linux 内 核 正确 处 理 这 些 核心 “系统 设备 的 加 减 ， 
以 至 于 单个 设备 驱动 不 需要 注意 这 些 事情 . 




















14.7.2. /sbin/hotplug 工具 





如 同 本 章 中 前 面 提 过 的 ， 无 论 何 时 一 个 设备 从 系统 中 增删 ， 都 产生 一 个 “ 热 插 拔 事件 XX 
意味 着 内 核 调 用 用 户 空 间 程 序 /sbin/hotplug. 这 个 程序 典型 地 是 一 个 非常 小 的 bash H 
本 ， 只 传递 执行 给 一 系列 其 他 的 位 于 /etc/hot-plug. d/ 目录 树 的 程序 .对 于 大 部 分 的 
Linux 发 布 ， 这 个 脚本 看 来 如 下 : 








DIR=”/etc/hotplug. d^ 

for I in ^$(DIR) /$1/^*. hotplug ”${DIR}/”default/*. hotplug ; do 
if [ -f $I ]; then 
test -x $I && $I $1 ; 
fi 

done 

exit 1 


换 句 话说 ， 这 个 脚本 搜索 所 有 的 有 .hotplug 后 级 的 可 能 对 这 个 事件 感 兴趣 的 程序 并 调用 
它们 ， 传 递 给 它们 许多 不 同 的 环境 变量 ， 这 些 环境 变量 已 经 被 内 核 设 置 ， 更 多 关于 
/sbin/hotplug 脚本 如 何 工 作 的 细节 可 在 程序 的 注释 中 找到 ， 以 及 在 hotplug (8) 手册 页 
中 . 


如 同 前 面 提 到 的 ，/sbin/hotplug 被 调用 无 论 何 时 一 个 kobject 被 创建 或 销毁 ， 热 插 拔 
程序 被 用 一 个 提供 事件 名 子 的 单个 命令 行 参数 调用 . 核心 内 核 和 涉及 到 的 特定 子 系统 也 设 
定 一 系列 带 有 关于 发 生 了 什么 的 信息 的 环境 变量 (下 面 描述 )， 这 些 变量 被 热 插 拔 程序 使 用 
来 判定 刚刚 在 内 核发 生 了 什么 ， 以 及 是 否 有 任何 特定 的 动作 应 当 采 取 . 




























































































传递 给 /sbin/hotplug 的 命令 行 参 数 是 关联 这 个 热 插 拔 事件 的 名 子 ， 如 同 分 配给 
kobject 的 kset 所 决定 的 . 这 个 名 子 可 通过 一 个 对 属于 本 章 前 面 描述 过 的 kset 的 
hotplug ops 结构 的 name 函数 的 调用 来 设 定 ; 如 果 那 个 函数 不 存在 或 者 从 未 被 调用 ， 名 
TÆ kset 自身 的 名 子 . 

















一 直 为 /sbin/hotplug 设 定 的 缺 省 的 环境 变量 是 
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ACTION 





这 个 字符 串 add 或 remove， 只 根据 是 否 这 个 对 象 是 被 创建 或 者 销毁 . 


DEVPATH 





一 个 目录 路 径 ， 在 sysfs 文件 系统 中 ， 它 指向 在 被 创建 或 销毁 的 kobject. 注意 
sysfs 文件 系统 的 加 载 点 不 是 添加 到 这 路 径 ， 因 此 是 由 用 户 空间 程序 来 决定 这 个 . 














SEQNUM 














这 个 热 插 拔 事件 的 顺序 号 ， 顺 序号 是 一 个 64- 位 数 ， 它 每 次 产生 热 插 拔 事件 都 递 
增 . 这 人 允许 用 户 空间 以 内 核 产 生 它们 的 顺序 来 排序 热 插 拔 事 件 ， 因 为 对 一 个 用 户 空 
间 程 序 可 能 乱 序 运行 . 




















SUBSYSTEM 


同样 的 字符 串 作 为 前 面 描述 的 命令 行 参 数 传递 . 











许多 不 同 的 总 线 子 系统 都 添加 它们 自己 的 环境 变量 到 /sbin/hotplug 调用 中 ， 当 关联 到 
总 线 的 设备 被 添加 或 从 系统 中 去 除 ， 它们 在 它们 的 热 插 拔 回 调 中 做 这 个 ， 这 个 回调 在 分 配 
给 它们 的 总 线 ( 如 同 在 “ 热 插 拔 操作 ”一 节 中 描述 的 ) 的 struct kset hotplug ops 中 指定 . 
这 允许 用 户 空间 能 够 自动 加 载 必要 的 可 能 需要 来 控制 这 个 被 总 线 发 现 的 设备 的 模块 ， 这 里 
是 一 个 不 同 总 线 类 型 的 列表 以 及 它们 添加 到 /sbin/hotplug 调用 中 的 环境 变量 . 























14.7.2.1. IEEE1394( 火 线 ) 
任何 在 IEEE1394 总 线 ， 也 是 火线 ， 上 的 设备 ， 由 /sbin/hotplug 参数 名 和 SUBSYSTEM 
环境 变量 设置 为 值 ieee1394. ieee1394 子 系统 也 总 是 添加 下 列 4 个 环境 变量 : 
VENDOR ID 
IEEE1394 的 24-4v 供应 者 ID. 
MODEL ID 
IEEE1394 的 24- 位 型 号 ID. 
GUID 
设备 的 64- 位 GUID. 
SPECIFIER ID 


24- 位 值 ， 指 定 设备 的 协议 规格 的 拥有 者 . 





VERSION 
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指定 设备 协议 规格 的 版 本 的 值 
14.7.2.2. 网 络 





所 有 的 网 络 设备 都 创建 一 个 热 插 拔 事件 ， 当 设备 注册 或 者 注销 在 内 核 . /sbin/hotplug 调 
用 有 参数 name 和 SUBSYSTEM 环境 变量 设置 为 net， 并 且 只 添加 下 列 环境 变量 : 





INTERFACE 
已 经 从 内 核 注 册 或 注销 的 接口 的 名 子 ， 这 个 的 例子 是 lo 和 eth0. 


14.7.2.3. PCI 总 


任何 在 PCI 总 线 上 的 设备 有 参数 name 和 SUBSYSTEM 环境 变量 设置 为 值 pci. PCI TA 
统 也 一 直 添 加 下 而 4 个 环境 变量 : 
PCI CLASS 

设备 的 PCI 类 号 ，16 进 制 


PCI ID 














设备 的 PCI 供应 商 和 设备 ID, 16 进 制 ， 绪 合成 这 样 的 格式 供应 者 :设备 . 





PCI SUBSYS ID 





PCI 子 系统 供应 商 和 子 系统 设备 ID, U 子 系统 供应 者 : 子 系统 设备 的 格式 结合 . 


PCI SLOT NAME 











PCI 插口 “名 “， 内 核 给 予 这 个 设备 的 . 它 以 这 样 的 格式 域 :总 线 : 插 口 : 功 能 ， 一 个 
例子 可 能 是 : 0000:00:04d. 0. 


14.7.2.4. 输入 





对 所 有 的 输入 设备 (鼠标 ， 键 盘 ， 游 戏 杆 ， 等 等 )， 一 个 热 揪 拔 事件 当 设 备 从 内 核 增 减 时 产 
^E. /sbin/hotplug 参数 和 SUBSYSTEM 环境 变量 被 设置 为 值 input. 输入 子 系统 也 总 是 
添加 下 面 的 环境 变量 : 











PRODUCT 


一 个 多 值 字符 串 ， 用 16 进 制 列 出 值 没有 前 导 0， 它 的 格式 是 


bustype:vender:product: version. 


下 列 环境 变量 可 能 出 现 ， 如 果 设 备 支 持 它 : 
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NAME 


输入 设备 的 名 子 ， 如 同 设备 给 定 的 . 





PHYS 


输入 子 系统 给 这 个 设备 的 设备 的 物理 地 址 ， 它 假定 是 稳定 的 ， 依 赖 设备 所 插入 的 总 
线 的 位 置 . 











EV 

KEY 
REL 
ABS 
MSC 
LED 
SND 
FF 





这 些 都 来 日 输入 设备 描述 符 并 且 被 设置 为 合适 的 值 如 果 特 定 的 输入 设备 支持 它 . 





14.7.2.5. USB 总 线 





任何 在 USB 总 线 上 的 设备 有 参数 name 和 SUBSYSTEM 环境 变量 设置 为 usb，USB 子 系统 
也 总 是 一 直 添 加 下 列 的 环境 变量 : 





PRODUCT 





一 个 字符 串 ，idVendor/idProduct/bcdDevice 的 格式 ， 来 指定 这 些 USB 设备 特定 
的 成 员 . 


TYPE 


一 个 bDeviceClass/bDeviceSubClass/bDeviceProtocol 格式 的 字符 串 ， 指 定 这 些 
USB 设备 特定 的 成 员 . 


如 果 bDeviceClass 成 员 设 置 为 0， 下 列 的 环境 变量 也 被 设置 : 
INTERFACE 


一 个 bInterfaceClass/bInterfaceSubClass/bInterfaceProtocol 格式 的 字符 串 ， 
指定 这 些 USB 设备 特定 成 员 . 











如 果 这 个 内 核 建立 选项 ，CONFIG USB_DEVICEFS， 它 选择 usbfs 文件 系统 来 在 内 核 中 建立 ， 
被 选中 ， 下 列 环境 变量 也 被 设置 : 





DEVICE 
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一 个 字符 串 ， 在 设备 所 在 的 usbfs 文件 系统 中 出 现 ， 这 个 字 串 以 
/proc/bus/usb/USB BUS NUMBER/USB DEVICE NUMBER 的 格式 ， 其 中 
USB BUS NUMBER 是 这 个 设备 所 在 的 USB 总 线 的 3 ^, USB DEVICE NUMBER 是 
已 由 内 核 分 配给 USB 设备 的 3 位 数 . 

















14.7.2.6. SCSI 总 线 








所 有 的 SCSI 设备 创建 一 个 热 插 拔 事件 当 SCSI 设备 从 内 核 中 创建 或 去 除 . 
/sbin/hotplug 调用 有 参数 name 和 SUBSYSTEM 环境 变量 设置 为 scsi 给 每 个 添加 或 去 
除 自 系统 的 SCSI 设备 .没有 额外 的 环境 变量 由 SCSI 系统 添加 ， 但 是 它 被 在 此 提 及 因为 
有 一 个 SCSI 特定 的 用 户 空 间 脚 本 来 决定 什么 SCSI 驱动 ( 磁盘， 磁带， 通用， 等 等 ) 应 
当 给 这 个 特定 SCSI 设备 加 载 . 


14.7.2.7. 膝 上 电脑 坞 站 



































如 果 一 个 支持 即 插 即 用 的 膝 上 电脑 坞 站 被 从 运行 中 的 Linux 系统 中 添加 或 去 除 ( 通过 插 
入 膝 上 电脑 到 坞 站 中 ， 或 者 去 除 它 )， 一 个 热 插 拔 事件 被 产生 . /sbin/hotplug 调用 有 参 
数 name 和 SUBSYSTEM 环境 变量 设 为 dock. 没有 其 他 的 环境 变量 被 设置 . 

















14.7.2.8. S/390 和 zSeries 





在 S/390 体系 中 ， 通 道 总 线 结构 支持 很 广 范围 的 硬件 ， 所 有 产生 /sbin/hotplug 事件 当 
它们 从 Linux 虚拟 系统 被 添加 或 去 除 时 的 硬件 .这 些 设备 都 有 /sbin/hotplug 参数 
name 和 SUBSYSTEM 环境 变量 设置 为 dasd. 没有 其 他 环境 变量 被 设置 . 








14.7.3. 使 用 /sbin/hotplug 


现在 Linux 内 核 在 调用 /sbin/hotplug 为 每 个 设备 ， 添 加 和 删除 自 内 核 ， 许 多 非常 有 用 
的 工具 在 用 户 空 间 已 被 创建 来 利用 这 一 点 .2 个 最 常用 的 工具 是 Linux 热 插 拔 脚本 和 


udev. 


14.7.3.1. Linux 热 插 拔 脚本 




















Linux 热 插 拔 脚本 作为 /spin/hotplug 调用 的 第 一 个 用 户 而 启动 ， 这些 脚 本 查看 内 核 设 
置 的 来 描述 刚刚 发 现 的 设备 的 不 同 的 环境 变量 ， 并 接着 试图 发 现 一 个 匹配 这 个 设备 的 内 核 
模块 . 






































如 同 前 面 描述 的 ， 当 一 个 驱动 使 用 MODULE DEVICE TABLE 宏 ， 程 序 depmod 采用 这 个 信 
息 并 创建 位 于 /lib/module/KERNEL VERSION/modules.*map 的 文件 ， 这 个 * 是 不 同 的 ， 
根据 驱动 文 持 的 总 线 类 型 ， 当前， 模块 map 文件 为 使 用 设备 的 驱动 而 产生 ， 这 些 设备 文 
持 PCI，USB，IEEE1394，INPUT，ISAPNP， 和 CW 子 系统 . 



































热 插 拔 脚本 使 用 这 些 模块 映射 文本 文件 ， 来 决定 试图 加 载 什 么 模块 来 文 持 内 核 刚 刚 发 现 的 
设备 ， 它 们 加 载 所 有 的 模块 ， 在 第 一 次 匹配 时 不 停止 ， 为 了 使 内 核发 现 那个 模块 工作 得 最 











347 


Linux[] [ (LinuxIDC.com) [] [] [] Ubuntu,Fedora,SUSEL] O O O 0O IO 0O O Linux[] HD] E] UE L] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
好 .这 些 脚本 不 加 载 任 何 模块 当 驱 动 被 去 除 时 ， 如果 它 们 要 试图 做 这 个 ， 它 们 可 能 偶然 地 
关闭 被 同一 个 要 被 去 除 的 驱动 控制 的 设备 . 











注意 ， 现 在 modprobe 程序 能 直接 从 模块 中 读 MODULE DEVICE TABLE 信息 而 不 需要 模块 
map 文件 ， 热 插 拔 脚本 可 能 被 删 减 为 一 个 小 的 在 modprobe 程序 周围 的 包装 . 











14.7.3.2. udev 哈 ? 














在 内 核 中 创建 统一 的 驱动 模型 的 一 个 主要 原因 是 允许 用 户 空 间 动 态 管 理 /dev 树 . 这 之 前 
已 使 用 devfs 的 实现 在 用 户 空 间 实现 ， 但 是 那个 代码 底线 已 慢 慢 消失 ， 由 于 缺少 一 个 活 
跃 的 维护 者 以 及 一 些 无 法 修正 的 核心 bug， 许 多 内 核 开发 者 认识 到 如 果 所 有 的 设备 信息 被 
输出 给 用 户 空间 ， 它 可 能 进行 所 有 的 必要 的 /dev 树 的 管理 . 















































devfs 在 它 的 设计 中 有 一 些 非常 基础 的 缺陷 ， 它 需要 每 个 设备 驱动 被 修改 来 文 持 它 ， 并 且 
它 要 求 设备 驱动 来 指定 名 子 和 在 它 所 在 的 /dev 树 中 的 位 置 . 它 也 没有 正确 处 理 动态 主 次 
编号 ， 并 且 它 不 允许 用 户 空 间 以 简单 方式 履 盖 设备 的 命名 ， 这 样 来 强制 设备 命名 策略 于 内 
核 中 而 不 是 在 用 户 空间 .Linux 内 核 开 发 中 非常 厌恶 使 策略 在 内 核 中 ， 并 且 因为 devfs 
命名 策略 不 遵循 Linux 标准 基础 规格 ， 它 确实 困扰 他 们 . 
























































Bü Linux 内 核 开 始 安 装 到 大 型 服务 器 ， 许 多 用 户 遇 到 如 何 管理 大 量 设备 的 问题 ， 超 过 
10, 000 个 单一 设备 的 磁盘 驱动 阵列 提出 了 非常 困难 的 任务 ， 保 证 一 个 特定 磁盘 一 直 使 用 
相同 的 名 子 命名 ， 不 管 它 在 磁盘 阵列 的 哪里 或 者 它 什么 时 候 被 内 核发 现 ， 同 样 的 问题 也 折 
磨 着 桌面 用 户 ， 想 插入 2 个 USB 打印 机 到 他 们 的 系统 ， 并 且 接 着 发 现 它们 没有 办 法 保证 
己 知 为 /dev/1pt0 的 打印 机 不 会 改变 并 分 配给 其 他 的 打印 机 如 果 系 统 重启 . 















































因此 ，udev 被 创建 . 它 依靠 所 有 通过 sysfs 输出 给 用 户 空间 的 设备 信息 ， 并 且 依 靠 被 
/sbin/hotplug 通知 有 设备 添加 或 去 除 ， 策 略 决策 ， 例 如 给 一 个 设备 什么 名 子 ， 可 在 用 户 
空间 指定 ， 内 核 之 外 .这 保证 了 命名 集 略 被 从 内 核 中 去 除 并 且 允 许 大 量 每 个 设备 名 子 的 灵 
活性 . 




















对 更 多 的 关于 如 何 使 用 udev 和 如 何 配置 它 的 信息 ， 请 看 在 你 的 发 布 中 和 udev 软件 包 一 
起 的 文档 . 























所 有 的 一 个 设备 驱动 需要 做 的 ， 为 udev 正确 使 用 它 ， 是 确保 任何 分 配给 一 个 驱动 控制 的 
设备 的 主 次 编写 通过 sysfs 输出 到 用 户 空间 . 对 任何 使 用 一 个 子 系 统 来 安排 它 一 个 主 次 
编写 的 驱动 ， 这 已 经 由 子 系统 完成 ， 并 且 了 驱动 不 必 做 任何 工作 .做 这 个 的 子 系统 的 例子 是 
tty, misc,，usb，input，scsi，block，i2c，network， 和 frame buffer TRA. WR 
你 的 驱动 自己 获得 一 个 主 次 编号 ， 通 过 对 cdev init 函数 的 调用 或 者 更 老 的 

register chrdev 函数 ， 驱 动 需要 被 修改 以 便 udev 能 够 正确 使 用 它 . 



























































udev 查找 一 个 称 为 dev 的 文件 在 sysfs 的 /class/ 树 中 ， 为 了 决定 分 配 什 么 主 次 编号 
给 一 个 特定 设备 当 它 被 内 核 通 过 /sbin/hotplug 接口 调用 时 ， 一 个 设备 驱动 只 要 为 每 个 
它 控制 的 设备 创建 这 个 文件 ，class_simple 接口 常常 是 最 易 的 做 这 个 的 方法 . 




















如 同 ”class_simple 接口 “一 节 中 提 过 的 ， 使 用 class simple 接口 的 第 一 步 是 调用 
class simple create 涵 数 来 创建 一 个 struct class simple. 
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static struct class simple **foo class; 


foo class = class simple create(THIS MODULE, ^foo^); 
if (IS ERR(foo class)) { 

printk(KERN ERR "Error creating foo class. M^); 
goto error; 


} 





这 个 代码 创建 一 个 目录 在 sysfs 中 /sys/class/foo. 














无 论 何 时 你 的 驱动 发 现 一 个 新 设备 ， 并 且 你 如 第 3 章 描 述 的 分 配 它 一 个 次 编号 ， 驱 动 应 
当 调 用 class simple device add 函数: 








class simple device add(foo class, MKDEV(FOO MAJOR, minor), NULL, “foo%d”, 
minor); 











这 个 代码 导致 在 /sys/class/foo 创建 一 个 子 目录 称 为 fooN， 这 里 N 是 这 个 设备 的 次 编 
号 ,在 这 个 目录 里 创建 有 一 个 文件 ，dev， 它 恰好 是 udev 为 你 的 设备 创建 一 个 设备 节点 
需要 的 . 

















当 你 的 驱动 从 一 个 设备 解除 ， 并 且 你 放弃 它 所 依附 的 次 编号 ， 需 要 调用 
class simple device remove 来 去 除 这 个 设备 的 sysfs AH. 





class simple device remove (MKDEV (FOO MAJOR, minor)); 





之 后 ， 当 你 的 整个 驱动 被 关闭 ， 需 要 调用 class simple destroy 来 去 除 你 起 初 调用 


class simple create 创建 的 class. 





class simple destroy(foo class); 








同样 class simple device add 创建 的 dev 文件 包括 主 次 编号 ， 由 一 个 : 隔 开 ， 如 果 
你 的 驱动 不 想 使 用 class simple 接口 因为 你 想 提 供 其 他 在 子 系统 的 类 目录 中 的 文件 ， 使 
用 print dev t 函数 来 正确 格式 化 特定 设备 的 主 次 编号 . 


14. 8， 处 理 固件 


作为 一 个 驱动 作者 ， 你 可 能 发 现 你 面 对 一 个 设备 必须 在 它 能 支持 工作 前 下 载 固件 到 它 里 面 ， 
硬件 市 场 的 许多 地 方 的 竞争 是 如 此 得 强烈 ， 以 至 于 甚至 一 点 用 作 设 备 控制 固件 的 EEPROM 
的 成 本 制造 商都 不 愿意 花费 .因此 固件 发 布 在 随 硬 件 一 起 的 一 张 CD 上 ， 并 且 操 作 系统 负 
责 传送 固件 到 设备 自身 . 














你 可 能 想 解 决 固 件 问 题 使 用 这 样 的 一 个 声明 : 





static char my firmware[] = { 0x34, 0x78, Oxa4, ... }; 











但 是 ， 这 个 方法 儿 乎 肯定 是 一 个 错误 .将 固件 编码 到 一 个 驱动 扩大 了 驱动 的 代码 ， 使 固件 
升级 困难 ， 并 且 非 常 可 能 产生 许可 问题 ,供应 商 不 可 能 已 经 发 布 固 件 映 象 在 GPL 之 下 ， 
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因此 和 GPL-VE RI ÍT A s RR d vA. Ae, WE A BEDS RR CI AP eT B S BS 
到 主流 内 核 或 者 被 Linux 发 布 者 包含 . 


14. 8. 1， 内 核 固件 接口 
正确 的 方法 是 当 你 需要 它 时 从 用 户 空间 获取 它 . 但 是 ， 请 抵制 试图 从 内 核 空 间 直 接 打 开 包 


含 固件 的 文件 的 诱惑 ， 那 是 一 个 易 出 错 的 操作 ， 并 且 它 安放 了 策略 (以 一 个 文件 名 的 形式 ) 
到 内 核 ， 相反 ， 正 确 的 方法 时 使 用 固件 接口 ， 它 就 是 为 此 而 创建 的 : 















































Hinclude <linux/firmware. h> 
int request firmware(const struct firmware **fw, char *name, 
struct device *device); 








调用 request firmware 要 求 用 户 空间 定位 并 提供 一 个 固件 映 象 给 内 核 ， 我们 一 会 儿 看 它 
如 何 工 作 的 细节 .name 应 当 标 识 需要 的 固件 ; 正常 的 用 法 是 供应 者 提供 的 固件 文件 名 . 
某 些 象 my firmware. bin 的 名 子 是 典型 的 ， 如 果 固 件 被 成 功 加 载 ， 返 回 值 是 0( 负 责 常 用 
的 错误 码 被 返回 ) ， 并 且 fw 参数 指向 一 个 这 些 结构 : 















































struct firmware { 
size t size; 
u8 *data; 


} 








那个 结构 包含 实际 的 固件 ， 它 现在 可 被 下 载 到 设备 中 ， 小 心 这 个 固件 是 来 自用 户 空 间 的 未 
被 检查 的 数据 ; 你 应 当 在 发 送 它 到 硬件 之 前 运用 任何 并 且 所 有 的 你 能 够 想到 的 检查 来 说 服 
你 自己 它 是 正确 的 固件 映 象 ， 设 备 固件 常常 包含 标识 串 ， 校 验 和 ， 等 等 ; 在 信任 数据 前 全 
部 检查 它们 . 


























在 你 已 经 发 送 固件 到 设备 前 ， 你 应 当 释 放 in-kernel 结构 ， 使 用 : 


void release firmware(struct firmware *fw); 





因为 request firmware 请 求 用 户 空 间 来 帮忙 ， 它 保证 在 返回 前 睡眠 ， 如 果 你 的 驱动 当 它 
必须 请 求 固件 时 不 在 睡眠 的 位 置 ， 异 步 的 替代 方法 可 能 要 使 用 : 











int request firmware nowait(struct module *module 
char *name, struct device *device, void *context 
void (cont) (const struct firmware *fw, void *context)); 





这 里 额外 的 参数 是 moudle( 它 将 一 直 是 THIS MODULE), context (一 个 固件 子 系统 不 使 
用 的 私有 数据 指针 )， 和 cont. 如果 都 进行 顺利 ，request_firmware_nowait 开始 固件 加 
载 过 程 并 且 返 回 0， 在 将 来 某 个 时 间 ，cont 将 用 加 载 的 结果 被 调用 ， 如 果 由 于 某 些 原因 
国 件 加 载 失败 ，fw 是 NULL. 








14. 8. 2， 它 如 何 工作 








固件 子 系统 使 用 sysfs MAJERLE. “WH request_firmware， 一 个 新 目录 在 
/sys/class/firmware 下 使 用 你 的 驱动 的 名 子 被 创建 .那个 目录 包含 3 个 属性 : 
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loading 


这 个 属性 应 当 被 加 载 固件 的 用 户 空 间 进 程 设 置 为 1， 当 加 载 进程 完成 ， 它 应 当 设 为 
0， 写 一 个 值 -1 到 loading 会 中 止 固件 加 载 进程 . 














data 
data 是 一 个 二 进 制 的 接收 固件 数据 自身 的 属性 . 在 设置 loading 后 ， 用 户 空间 进 
程 应 当 写 固件 到 这 个 属性 . 

device 


这 个 属性 是 一 个 符号 连接 到 /sys/devices 下 面 的 被 关联 入 口 项 . 








一 旦 创建 了 sysfs 入 口 项 ， 内 核 为 你 的 设备 产生 一 个 热 插 拔 事件 ， 传 递 给 热 插 拔 处 理 者 
的 环境 包括 一 个 变量 FIRMWARE， 它 被 设置 为 提供 给 request_firmware 的 名 子 . 这 个 处 
理 者 应 当 定位 固件 文件 ， 并 且 拷 贝 它 到 内 核 使 用 提供 的 属性 如果 这 个 文件 无 法 找到 ， 处 
理 者 应 当 设 置 loading 属性 为 -1. 




































































如 果 一 个 固件 请 求 在 10 秒 内 没有 被 服务 ， 内 核 就 放弃 并 返回 一 个 失败 状态 给 驱动 ， 超 时 
周期 可 通过 sysfs 属性 /sys/class/firmware/timeout 属性 改变 . 


























使 用 request firmware 接口 允许 你 随 你 的 驱动 发 布设 备 固 件 ， 当 正确 地 集成 到 热 插 拔 机 
制 ， 固 件 加 载 子 系统 允许 设备 简化 工作 “在 盒子 之 外 ”显然 这 是 处 理 问题 的 最 好 方法 . 




















但 是 ， 请 允许 我 们 提出 多 一 条 警告 : 设备 固件 没有 制造 商 的 许可 不 应 当 发 布 ， 许 多 制造 商 
会 同意 在 合理 的 条 款 下 许可 它们 的 固件 ， 如 果 客 气 地 请 求 ; 一 些 其 他 的 可 能 不 何在 ， 无 论 
如 何 ， 在 没有 许可 时 拷贝 和 发 布 它们 的 固件 是 对 版 权 法 的 破坏 并 且 招 致 麻烦 


14. 9， 快 速 参考 


许多 函数 在 本 章 中 已 经 被 介绍 过 ; 这 是 它们 全 部 的 一 个 快速 总 结 . 

















14.9.1. Kobjects 结构 


Hinclude Xlinux/kobject. h> 





包含 文件 ， 包 含 kobject 的 定义 ， 相 关 结 构 ， 和 函数 ， 


void kobject init(struct kobject *kobj); 
int kobject set name(struct kobject *kobj, const char *format, ...); 


用 作 kobject 初始 化 的 函数 


struct kobject *kobject get(struct kobject *kobj); 
void kobject put(struct kobject *kobj); 








JJ kobjects 管理 引用 计数 的 函数 . 
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struct kobj type; 
struct kobj type *get ktype(struct kobject *kobj); 








表示 一 个 kobjct 被 嵌入 的 结构 类 型 .使 用 get ktype 来 获得 关联 到 一 个 给 定 
kobject 的 kobj type. 


int kobject add(struct kobject *kobj); 

extern int kobject register (struct kobject *kobj); 
void kobject del(struct kobject *kobj); 

void kobject unregister(struct kobject *kobj); 


kobject add 添加 一 个 kobject 到 系统 ， 处 理 kset 成 员 关 系 ，sysfs 表示 ， 以 及 热 插 拔 事件 
产生 . kobject register 是 一 个 方便 函数 ， 它 结合 kobject init 和 kobject add. 使 用 
kobject del 来 去 除 一 个 kobject 或 者 kobject unregister， 它 结合 了 kobject del 和 
kobject put. 



































void kset init(struct kset *kset); 

int kset add(struct kset *kset); 

int kset register(struct kset *kset); 
void kset unregister(struct kset *kset); 


为 ksets 初始 化 和 注册 的 函数 . 
decl subsys(name, type, hotplug ops); 


易于 声明 子 系统 的 一 个 宏 . 


void subsystem init(struct subsystem *subsys); 

int subsystem register(struct subsystem *subsys); 

void subsystem unregister (struct subsystem *subsys); 
struct subsystem *subsys get(struct subsystem *subsys); 
void subsys put(struct subsystem *subsys); 


对 子 系统 的 操作 . 
14. 9. 2，sysfs 操作 


#include <linux/sysfs. h> 
包含 sysfs 声明 的 包含 文件 . 


int sysfs create file(struct kobject *kobj, struct attribute *attr); 

int sysfs remove file(struct kobject *kobj, struct attribute *attr); 

int sysfs create bin file(struct kobject *kobj, struct bin attribute *attr); 

int sysfs remove bin file(struct kobject *kobj, struct bin attribute *attr); 

int sysfs create link(struct kobject *kobj, struct kobject *target, char *name); 
void sysfs remove link(struct kobject *kobj, char *name); 








创建 和 去 除 和 一 个 kobject 关联 的 属性 文件 的 函数 . 
14.9.3. 总 线 ， 设 备 ， 和 驱动 
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int bus register(struct bus type *bus); 
void bus unregister(struct bus type *bus); 


在 设备 模型 中 进行 注册 和 注销 总 线 的 函数 . 


int bus for each dev(struct bus type *bus, struct device *start, void *data, int 
Ckfn) (struct device *, void *)); 
int bus for each drv(struct bus type *bus, struct device driver *start, void *data, int 
Ckfn) (struct device driver *, void *)); 
列举 每 个 设备 和 驱动 的 函数 ， 特 别 地 ， 绑 定 到 给 定 总 线 的 设备 . 
BUS ATTR(name, mode, show, store); 
int bus create file(struct bus type *bus, struct bus attribute *attr); 
void bus remove file(struct bus type *bus, struct bus attribute *attr); 





BUS ATTR 宏 可 能 用 来 声明 一 个 bus attribute 结构 ， 它 可 能 接着 被 添加 和 云 除 ， 
使 用 上 面 2 个 函数 . 


int device register(struct device **dev); 
void device unregister(struct device *dev); 


处 理 设备 注册 的 函数 . 





DEVICE ATTR(name, mode, show, store); 
int device create file(struct device *device, struct device attribute *entry); 
void device remove file(struct device *dev, struct device attribute *attr); 


处 理 设备 属性 的 宏和 函数 . 








int driver register(struct device driver *drv); 
void driver unregister(struct device driver *drv); 


注册 和 注销 一 个 设备 驱动 的 函数 . 


DRIVER ATTR(name, mode, show, store); 
int driver create file(struct device driver *drv, struct driver attribute *attr); 
void driver remove file(struct device driver *drv, struct driver attribute *attr); 


关联 驱动 属性 的 宏和 函数 . 





14.9.4. 类 


struct class simple *class simple create(struct module *owner, char *name) ; 

void class simple destroy (struct class simple *cs); 

struct class device *class simple device add(struct class simple *cs, dev t devnum, struct 
device *device, const char *fmt, ...); 





void class simple device remove(dev t dev); 








int class simple set hotplug(struct class simple *cs, int (Ckhotplug) (struct class device 
*dev, char **kenvp, int num envp, char *buffer, int buffer size)); 
实现 class simple 接口 的 函数 ;它们 管理 包含 一 个 dev 属性 和 很 少 其 他 属性 的 简单 的 类 入 口 




















int class register (struct class *cls); 
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void class unregister(struct class *cls); 


注册 和 注销 类 . 


CLASS ATTR(name, mode, show, store); 
int class create file(struct class *cls, const struct class attribute *attr); 
void class remove file(struct class *cls, const struct class attribute *attr); 


处 理 类 属性 的 常用 宏和 函数 . 











int class device register(struct class device *cd); 

void class device unregister (struct class device *cd); 

int class device rename(struct class device *cd, char *new name); 

CLASS DEVICE ATTR(name, mode, show, store); 

int class device create file(struct class device *cls, const struct class device attribute 
*attr); 


属性 类 设备 接口 的 函数 和 宏 . 








int class interface register(struct class interface *intf); 
void class interface unregister (struct class interface *intf); 


添加 一 个 接口 到 一 个 类 (或 去 除 它 ) 的 函数 . 
14. 9. 5， 国 件 


#include <linux/firmware. h> 

int request firmware (const struct firmware **fw, char *name, struct device *device); 

int request firmware nowait(struct module *module, char *name, struct device *device, void 
*context, void (*cont) (const struct firmware *fw, void *context)); 

void release firmware(struct firmware *fw); 


E TE AE SUPE D CE O PE PR 2C 
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第 15 章 内 存 映射 和 DMA 


本 章 研 究 Linux 内 存 管理 的 部 分 ， 重 点 在 对 于 设备 驱动 作者 有 用 的 技术 .许多 类 型 的 驱动 编程 需要 一 
些 对 于 虚拟 内 存 子 系统 如 何 工 作 的 理解 ; 我 们 在 本 章 涉及 到 的 材料 来 自 手头 ， 而 不 是 象 我 们 曾 进 入 更 加 
复杂 和 性 能 关键 的 子 系统 一 样 . 虚拟 内 存 子 系统 也 是 Linux 内 核 核心 的 非常 有 趣 的 部 分 ， 并 且 因 而 ， 
值得 一 见 . 





















































本 章 的 材料 分 为 3 个 部 分 





。 第 一 部 分 水 及 mmap 系统 前 用 的 实现 ， 它 允 许 设 备 内 存 直接 映射 到 一 个 用 户 进程 地 址 空间 .不 

是 所 有 的 设备 需要 mmap 支持 ， 但 是 ， 对 一 些 ， 映 射 设 备 内 存 可 产生 可 观 的 性 能 提高 . 

。 我 们 接着 看 从 其 他 的 方向 跨 过 边界 ， 用 对 直接 存 取 用 户 空间 的 讨论 ， 相 对 少 驱 动 需要 这 个 能 
在 大 部 分 情况 下 ， 内 核 做 这 种 映射 而 驱动 甚至 不 知道 它 . 但 是 了 解 如何 映 射 用 户 空间 内 存 到 内 
核 (使 用 get user pages) 会 有 用 

。 最 后 节 涵盖 直接 内 存 存 取 ( DMA ) 1/0 操作 ， 它 提 供给 外 设 对 系统 内 存 的 直接 存 取 . 








































































































当然 ， 所 有 这 些 技术 需要 一 个 对 Linux 内 存 管理 如 何 工作 的 理解 ， 因 此 我 们 从 对 这 个 子 系统 的 总 览 开 
始 


15.1. Linux 中 的 内 存 管 理 


不 是 描述 操作 系统 的 内 存 管 理 理 论 ， 本 节 试 图 指出 Linux 实现 的 主要 特点 .尽管 你 不 必 
是 一 位 Linux 虚拟 内 存 专 家 来 实现 mmap， 一 个 对 事情 如 何 工 作 的 基本 了 解 是 有 用 的 ， 下 
面 是 一 个 相当 长 的 对 内 核 使 用 来 管理 内 存 的 数据 结构 的 描述 .一 旦 必要 的 背景 已 被 覆盖 ， 
我 们 就 进入 使 用 这 个 结构 . 


15.1.1. 地址 类 型 


Linux 是 ， 当 然 ， 一 个 虚拟 内 存 系统 ， 意 味 着 用 户 程序 见 到 的 地 址 不 直接 对 应 于 硬件 使 用 
的 物理 地 址 .虚拟 内 存 引 入 了 一 个 间接 层 ， 它 允许 了 许多 好 事情 .有 了 虚拟 内 存 ， 系 统 重 
运行 的 程序 可 以 分 配 远 多 于 物理 上 可 用 的 内 存 ; 确实 ， 即 便 一 个 单个 进程 可 拥有 一 个 虚拟 
地 址 空间 大 于 系统 的 物理 内 存 ， 虚 拟 内 存 也 允许 程序 对 进程 的 地 址 空间 运用 多 种 技巧 ， 包 
括 映射 成 员 的 内 存 到 设备 内 存 . 

















































































































至 此 ， 我 们 已 经 讨论 了 虚拟 和 物理 地 址 ， 但 是 许多 细节 被 掩盖 过 去 了 . Linux 系统 处 理 几 
种 类 型 的 地 址 ， 每 个 有 它 自 己 的 含义 ， 不 幸 的 是 ， 内 核 代 码 不 是 一 直 非 常 清楚 确切 地 在 每 
个 情况 下 在 使 用 什么 类 型 地 地 址 ， 因 此 程序 员 必 须 小 心 . 



































下 面 是 一 个 Linux 中 使 用 的 地 址 类 型 列表 ， 图 Linux 中 使 用 的 地 址 类 型 显示 了 这 个 地 址 
类 型 如 何 关 联 到 物理 内 存 . 





图 15.1. Linux 中 使 用 的 地 址 类 型 
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high memory 


user process EE low memory 


E 一 一 一 全 
| l 
user process 人 






physical memory address space —dM- page mapping 








User virtual addresses 





kernel logical 
addresses 


kernel virtual 
| addresses 





这 是 被 用 户 程 序 见 到 的 常规 地 址 ， 用 户 地 址 在 长 度 上 是 32 位 或 者 64 位 ， 依 赖 底 





层 的 硬件 结构 ， 并 且 每 个 进程 有 它 自 己 的 虚拟 地 址 空间 . 


Physical addresses 


在 处 理 器 和 系统 内 存 之 间 使 用 的 地 址 .物理 地 址 是 32- 或 者 64- 位 的 量 ; 甚至 











32- 位 系统 在 某 些 情况 下 可 使 用 更 大 的 物理 地 址 ， 


Bus addresses 





在 外 设 和 内 存 之 间 使 用 的 地 址 ， 经常 ， 它 们 和 被 处 理 器 使 用 的 物理 地 址 相同 ， 但 是 
这 不 是 必要 的 情况 .一 些 体系 可 提供 一 个 1/0 内 存 管理 单元 (IOMMU)， 它 在 总 线 和 
主 内 存 之 间 重 映射 地 址 .一 个 IOMMU 可 用 多 种 方法 使 事情 简单 (例如 ， 使 散布 在 内 
存 中 的 缓冲 对 设备 看 来 是 连续 的 ， 例 如 )， 但 是 当 设 定 DMA 操作 时 对 IOMMU 编程 


























是 一 个 必须 做 的 额外 的 步骤 ， 总 线 地 址 是 高 度 特性 依赖 的 ， 当 然 . 


Kernel logical addresses 





这 些 组 成 了 正常 的 内 核 地 址 空间 ， 这 些 地 址 映射 了 部 分 (也许 全 部 ) 主 存 并 且 和 常常 被 
当 作 它 们 是 物理 内 存 来 对 待 ， 在 大 部 分 的 体系 上 ， 人 逻辑 地 址 和 它们 的 相关 物理 地 址 




















只 差 一 个 常量 偏 移 ， 人 逻辑 地 址 使 用 硬件 的 本 地 指针 大 小 并 且 ， 因 此 ， 




















可 能 不 能 在 重 


装备 的 32- 位 系统 上 寻 址 所 有 的 物理 内 存 ， 罗 和 辑 地 址 常常 存储 于 unsigned long 


或 者 void * 类 型 的 变量 中 .从 kmalloc 返回 的 内 存 有 内 核 罗 和 辑 地 址 . 


Kernel virtual addresses 


Vj Ez He ULHHEAI UL T3 ERE, "EMPRESA AAE AEEA. AER 
EMIn A E E ERRER, 58 RA, [Hii. Bt 
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有 的 逻辑 地 址 是 内 核 虚 拟 地 址 ， 但 是 许多 内 核 虚 拟 地 址 不 是 逻辑 地 址 ， 例 如 ， 
vmalloc 分 配 的 内 存 有 虚拟 地 址 (但 没有 直接 物理 映射 )，kmap 函数 (本 章 稍 后 描述 ) 
也 返回 虚拟 地 址 ， 虚 拟 地 址 常常 存储 于 指针 变量 . 
























































如 果 你 有 逻辑 地 址 ， 宏 _ paO ( Æ 《asm/page.h> 中 定义 ) 返 回 它 的 关联 的 物理 地 址 . 


JF 











地 址 可 被 映射 回 逻 辑 地 址 使 用 va() ， 但 是 只 给 低 内 存 页 . 








不 同 的 内 核 函 数 需要 不 同类 型 地 址 ， 如 果 有 不 同 的 C 类 型 被 定义 可 能 不 错 ， 这 样 请 求 的 


pupil 
pupil 


15. 

















上 类 型 是 明确 的 ， 但 是 我 们 没有 这 样 的 好 运 . 在 本 章 ， 我 们 尽力 对 在 哪里 使 用 哪 种 类 型 
保持 清晰 . 


1. 2， 物 理 地 址 和 页 























物理 











内 存 被 划分 为 离散 的 单元 称 为 页 。 系统 的 许多 内 部 内 存 人 处 理 在 按 页 的 基础 上 完成 .页 




















大 小 一 个 体系 不 同 于 另 一 个 ， 尽 管 大 部 分 系统 当前 使 用 4096- 字 节 的 页 ， 常 量 PAGE SIZE 





如 果 你 查看 一 个 内 存 地 址 - 虚拟 或 物理 - 它 可 分 为 一 个 页 号 和 一 个 页 内 的 侦 移 ， 如果 使 











定义 在 “asm/page.h>) 给 出 了 页 大 小 在 任何 给 定 的 体系 上 . 




















用 4096- 字 节 页 ， 例 如 ，12 位 低 有 效 位 是 偏 移 ， 并 且 剩 下 的 ， 高 位 指示 页 号 ， 如 果 你 丢 
弃 偏 移 并 且 向 右 移动 剩 下 的 部 分 offset 位 ， 结 果 被 称 为 一 个 页 帧 号 (PFN. 移 位 来 在 页 
帧 号 和 地 址 之 间 转 换 是 一 个 相当 普通 的 操作 . 宏 PAGE SHIFT 告诉 必须 移动 多 少 位 来 进行 
这 个 转换 . 


15. 





1. 3， 高 和 低 内 存 




















逻辑 和 内 核 虚 拟 地 址 之 间 的 不 同 在 配备 大 量 内 存 的 32- 位 系统 中 被 突出 ， 用 32 位 ， 可 能 
寻 址 4 G 内 存 ， 但 是 ， 直 到 最 近 ， 在 32- 位 系统 的 Linux 被 限制 比 那 个 少 很 多 的 内 存 ， 
因为 它 建立 虚拟 地 址 的 方式 . 





























内 核 ( 在 x86 体系 上 ， 在 缺 省 配置 里 ) 在 用 户 空间 和 内 核 之 间 划 分 4-G 虚拟 地 址 ; 在 2 
个 上 下 文中 使 用 同一 套 映射 ， 一 个 典型 的 划分 分 出 3 GB 给 用 户 空间 ， 和 1 GB 给 内 核 空 


iil. 

















过 内核 的 代码 和 数据 结构 必须 要 适合 这 个 空间 ， 但 是 内 核 地 址 空间 最 大 的 消费 者 是 物 











理 内 存 的 虚拟 映射 ， 内 核 不 能 直接 操作 没有 映射 到 内 核 的 地 址 空间 ， 内 核 ， 换 句 话说 ， 需 
要 它 自 己 的 虚拟 地 址 给 任何 它 必须 直接 接触 的 内 存 . 因此 ， 多 年 来 ， 能 够 被 内 核 处 理 的 的 








Ed 























Hx 


间 . 





为 应 对 更 多 内 存 的 商业 压力 而 不 破坏 32- 位 应 用 和 系统 的 兼容 性 ， 处 理 器 制造 商 已 经 增 


量 的 物理 内 存 是 能 够 映射 到 虚拟 地 址 的 内 核 部 分 的 数量 ， 减 去 内 核 代码 上 自身 需要 的 空 
结果 ， 基 于 x86 的 Linux 系统 可 以 工作 在 最 多 稍 小 于 1 GB 物理 内 存 . 






































加 了 地址 扩展 “特性 到 他 们 的 产品 中 结果， 在 许多 情况 下 ， 即 便 32- 位 处 理 器 也 能 够 
寻 址 多 于 AGB WEAF. 但 是 ， 多 少 内 存 可 被 直接 用 逻辑 地 址 映射 的 限制 还 存在 ， 这样 
内 存 的 最 低 部 分 (上 到 1 或 2 GBB， 根据 硬件 和 内 核 配 置 ) 有 远 辑 地 址 ;， 剩 下 的 (高 内 存 ) 没 


fH. 









































在 存 取 一 个 特定 高 地 址 页 之 前 ， 内 核 必 须 建立 一 个 明确 的 虚拟 映射 来 使 这 个 也 在 内 核 














地 址 空间 可 用 . 因此 ， 许 多 内 核 数 据 结 构 必 须 放 在 低 内 存 ; 高 内 存 用 作 被 保留 为 用 户 进程 


页 


M. 





术语 “高 内 存 “ 对 有 些 人 可 能 是 疑惑 的 ， 特 别 因 为 它 在 PC 世界 里 有 其 他 的 含义 ， 因 此 ， 为 





清晰 起 匈 ， 我 们 将 定义 这 些 术语 : 
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Low memory 








逻辑 地 址 在 内 核 空间 中 存在 的 内 存 ， 在 大 部 分 每 个 系统 你 可 能 会 遇 到 ， 所 有 的 内 存 
都 是 低 内 存 . 





High memory 








逻辑 地 址 不 存在 的 内 存 ， 因 为 它 在 为 内 核 虚 拟 地 址 设置 的 地 址 范围 之 外 . 








在 i386 系统 上 ， 低 和 高 内 存 之 间 的 分 界 常常 设置 在 刚刚 在 1 GB 之 下 ， 尽 管 那个 边界 在 
内 核 配 置 时 可 被 改变 ， 这 个 边界 和 在 原始 PC 中 有 的 老 的 640 KB 限制 没有 任何 关联 ， 并 
且 它 的 位 置 不 是 硬件 规定 的 .相反 ， 它 是 ， 内 核 目 身 设置 的 一 个 限制 当 它 在 内 核 和 用 户 空 
间 之 间 划 分 32- 位 地 址 空间 时 . 
































我 们 将 指出 使 用 高 内 存 的 限制 ， 随 着 我 们 在 本 章 遇 到 它们 时 . 
15. 1. 4.， 内存 映 射 和 struct page 


历史 上 ， 内 核 已 使 用 逻辑 地 址 来 引用 物理 内 存 页 ， 高 内 存 支 持 的 增加 ， 但 是 ， 已 暴露 这 个 
方法 的 一 个 明显 的 问题 一 逻辑 地 址 对 高 内 存 不 可 用 因此， 处 理 内 存 的 内 核 函 数 更 多 在 
使 用 指向 struct page 的 指针 来 代 奉 (在 “Linux/mm. b> 中 定义 )， 这 个 数据 结构 只 是 用 
来 跟踪 内 核 需要 知道 的 关于 物理 内 存 的 所 有 事情 . 












































2.6 内 核 ( 带 一 个 增加 的 补丁 ) 可 以 支持 一 个 “46/46” 模 式 在 x86 硬件 上 ， 它 以 微弱 的 性 
能 代价 换 来 更 大 的 内 核 和 用 户 虚 拟 地 址 空间 . 








系统 中 每 一 个 物理 页 有 一 个 struct page. 这 个 结构 的 一 些 成 员 包 括 下 列 : 





atomic t count; 





这 个 页 的 引用 数 ， 当 这 个 count 掉 到 0， 这 页 被 返回 给 空闲 列表 . 
void *virtual; 


这 页 的 内 核 虚 拟 地 址 ， 如 果 它 被 映射 ; 否则 ，NULL， 低 内 存 页 一 直 被 映射 ; 高 内 存 


























页 常常 不 是 . 这 个 成 员 不 是 在 所 有 体系 上 出 现 ; 它 通 常 只 在 页 的 内 核 虚拟 地 址 无 法 
轻易 计算 时 被 编译 .如 果 你 想 查 看 这 个 成 员 ， 正 确 的 方法 是 使 用 page address Zi, 
下 面 描述 . 





unsigned long flags; 








一 套 描述 页 状态 的 一 套 位 标志 这些 包括 PG locked， 它 指示 该 页 在 内 存 中 已 被 加 
Bü UK PG_reserved， 它 防止 内 存 管理 系统 使 用 该 页 . 























有 很 多 的 信息 在 struct page 中 ， 但 是 它 是 内 存 管 理 的 更 深 的 黑 魔法 的 一 部 分 并 且 和 驱 
动 编写 者 无 关 . 
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内 核 维护 一 个 或 多 个 struct page 项 的 数组 来 跟踪 系统 中 所 有 物理 内 存 . 在 某 些 系统 ， 
有 一 个 单个 数组 称 为 mem_map， 但 是 ， 在 某 些 系统 ， 情 况 更 加 复杂 ，， 非 一 致 内 存 存 取 
( NUMA ) 系统 和 那些 有 很 大 不 连续 的 物理 内 存 的 可 能 有 多 于 一 个 内 存 映射 数组 ， 因 此 打算 
是 可 移植 的 代码 在 任何 可 能 时 候 应 当 避 免 直 接 对 数组 存 取 ， 素 运 的 是 ， 只 是 使 用 struct 
page 指针 常常 是 非常 容易 ， 而 不 用 担心 它们 来 自 哪 里 . 





















































有 些 函数 和 宏 被 定义 来 在 struct page 指针 和 虚拟 地 址 之 间 转 换 : 


struct page *virt to page(void *kaddr); 





这 个 宏 ， 定 义 在 《asm/page. h>， 采 用 一 个 内 核 逻 辑 地 址 并 返回 它 的 被 关联 的 
struct page 指针 ， 因 为 它 需要 一 个 逻辑 地 址 ， 它 不 使 用 来 自 vmalloc 的 内 存 或 
者 高 内 存 . 











struct page *pfn to page(int pfn); 





为 给 定 的 页 帧 号 返回 struct page 指针 ， 如 果 需 要 ， 它 在 传递 给 pfn to page 之 
前 使 用 pfn valid 来 检查 一 个 页 帧 号 的 有 效 性 . 











void *page address(struct page *page); 


返回 这 个 页 的 内 核 虚拟 地 址 ， 如 果 这 样 一 个 地 址 存在 .对 于 高 内 存 ， 那 个 地 址 仅 当 
这 个 页 已 被 映射 才 存 在 ， 这 个 函数 在 《linux/mm. h> 中 定义 ， 大 部 分 情况 下 ， 你 想 
使 用 kmap 的 一 个 版 本 而 不 是 page address. 





Sinclude Xlinux/highmem. h> 
void *kmap (struct page *page); 
void kunmap(struct page *page); 


kmap 为 系统 中 的 任何 页 返回 一 个 内 核 虚 拟 地 址 .对 于 低 内 存 页 ， 它 只 返回 页 的 逻 
辑 地 址 ; 对 于 高 内 存 ，kmap 在 内 核 地 址 空间 的 一 个 专用 部 分 中 创建 一 个 特殊 的 映 
射 ， 使 用 kmap 创建 的 映射 应 当 一 直 使 用 kunmap 来 释放 ;一 个 有 限 数 目的 这 样 的 
映射 可 用 ， 因 此 最 好 不 要 在 它们 上 停留 太 长 时 间 . kmap 调用 维护 一 个 计数 器 ， 
此 如 果 2 个 或 多 个 函数 都 在 同一 个 页 上 调用 kmap， 正 确 的 事情 发 生 了 .还 要 注 
意 kmap 可 能 睡眠 当 没 有 映射 可 用 时 . 









































Sinclude <linux/highmem. h> 

Sinclude <asm/kmap types. h> 

void *kmap atomic(struct page *page, enum km type type); 
void kunmap atomic(void *addr, enum km type type); 


kmap atomic 是 kmap 的 一 种 高 性 能 形式 .每 个 体系 都 给 原子 的 kmaps 维护 一 小 
列 插口 ( 专用 的 页 表 项 ) ; 一 个 kmap atomic 的 调用 者 必须 在 type 参数 中 告知 系 
统 使 用 这 些 插 口中 的 哪个 ， 对 驱动 有 意义 的 唯一 插口 是 KM USERO 和 KM USERI 
(对 于 直接 从 来 自用 户 空间 的 调用 运行 的 代码 )， 以 及 KM IRQO 和 KM_IRQ1 (对 于 中 
Wa). 注意 原子 的 kmaps 必须 被 原子 地 处 理 ; 你 的 代码 不 能 在 持 有 一 个 时 睡眠 . 
还 要 注意 内 核 中 没有 什么 可 以 阻止 2 个 函数 试图 使 用 同一 个 插口 并 且 相 互 干扰 
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(尽管 每 个 CPU 有 独特 的 一 套 插口 )， 实 际 上 ， 对 原子 的 kmap 插口 的 竞争 看 来 不 











是 个 问题 . 











在 本 章 后 面 和 后 续 章节 中 当 我 们 进入 例子 代码 时 ， 我 们 看 到 这 些 函 数 的 一 些 使 用 ， 
15. 1. 5， 页 表 
在 任何 现代 系统 上 ， 处 理 器 必须 有 一 个 机 制 来 转换 虚拟 地 址 到 它 的 对 应 物理 地 址 .这 个 机 


制 被 称 为 一 个 页 表 ; 它 本 质 上 是 一 个 多 级 树 型 结构 数组 ， 包 含 了 虚拟 -到 -物理 的 映射 和 几 
个 关联 的 标志 . Linux 内 核 维护 一 套 页 表 即 便 在 没有 直接 使 用 这 样 页 表 的 体系 上 
































设备 驱动 通常 可 以 做 的 许多 操作 能 涉及 操作 页 表 . 广 运 的 是 对 于 驱动 作者 ，2.6 内 核 已 经 
去 掉 了 任何 直接 使 用 页 表 的 需要 . 结果 是 ， 我 们 不 描述 它们 的 任何 细节 ; 好 奇 的 读者 可 能 
想 读 一 下 Understanding The Linux Kernel 来 了 解 完 整 的 内 容 ， 作 者 是 Daniel P. 
Bovet 和 Marco Cesati (© Reilly). 


15. 1. 6， 虚 拟 内 存 区 


虚拟 内 存 区 ( VMA ) 用 来 管理 一 个 进程 的 地 址 空间 的 独特 区 域 的 内 核 数 据 结构 ， 一 个 VMA 
代表 一 个 进程 的 虚拟 内 存 的 一 个 同 质 区 域 : 一 个 有 相同 许可 标志 和 被 相同 对 象 (如 ， 一 个 
文件 或 者 交换 空间 ) 文 持 的 连续 虚拟 地 址 范围 ， 它 松散 地 对 应 于 一 个 “ 段 ” 的 概念 ， 尽 管 可 
以 更 好 地 描述 为 一 个 有 它 自 己 特 性 的 内 存 对 象 ”. 一 个 进程 的 内 存 映 射 有 下 列 区 组 成 : 
























































。 给 程序 的 可 执行 代码 ( 常 第 称 为 text) 的 一 个 区 . 

。 给 数据 的 多 个 区 ， 包 括 初始 化 的 数据 ( 它 有 一 个 明确 的 被 分 配 的 值 ， 在 执行 开始 )， 
未 初始 化 数据 (BBS)，“ 以 及 程序 堆栈 . 

。 给 每 个 激活 的 内 存 映 射 的 一 个 区 域 
































一 个 进程 的 内 存 区 可 看 到 通过 /proc/<pid/maps》( 这 里 pid， 当 然 ， 用 一 个 进程 的 ID 来 
TRA). /proc/self 是 一 个 /proc/id 的 特殊 情况 ， 因 为 它 常 常 指 当 前 进程 ， 作 为 一 个 例 
子 ， 这 里 是 儿 个 内 存 映射 (我们 添加 了 简短 注释 ) 


8 cat /proc/l/maps look at init 
08048000-0804e000 r-xp 00000000 03:01 64652 
0804e000-0804f000 rw-p 00006000 03:01 64652 
0804f000-08053000 rwxp 00000000 00:00 0 
40000000-40015000 r-xp 00000000 03:01 96278 
40015000-40016000 rw-p 00014000 03:01 96278 
40016000-40017000 rw-p 00000000 00:00 0 
42000000-4212e000 r-xp 00000000 03:01 80290 
4212e000-42131000 rw-p 0012e000 03:01 80290 
42131000-42133000 rw-p 00000000 00:00 0 
bffff000-c0000000 rwxp 00000000 00:00 0 
ffffeO000-fffffO000 ——-p 00000000 00:00 0 


/sbin/init text /sbin/init data zero-mapped BSS /lib/ld-2.3.2.so text /lib/ld-2.3.2.so 
data BSS for 1d. so /lib/tls/libc-2.3.2.so text /lib/tls/libc-2.3.2.so data BSS for libc 
Stack segment vsyscall page 


# rsh wolf cat /proc/self/maps #### x86-64 (trimmed) 
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00400000-00405000 r-xp 00000000 03:01 1596291 /bin/cat text 
00504000-00505000 rw-p 00004000 03:01 1596291 /bin/cat data 
00505000-00526000 rwxp 00505000 00:00 0 bss 
3252200000-3252214000 r-xp 00000000 03:01 1237890 /lib64/1d-2. 3. 3. so 
3252300000-3252301000 r--p 00100000 03:01 1237890 /lib64/1d-2. 3. 3. so 
3252301000-3252302000 rw-p 00101000 03:01 1237890 /lib64/1d-2. 3. 3. so 
Tfbfffe000-7fc0000000 rw-p Tfbfffe000 00:00 0 stack 
ffffffffff600000-ffffffffffe00000 —-p 00000000 00:00 0 vsyscall 


每 行 的 字段 是 : 
start-end perm offset major:minor inode image 
每 个 在 /proc/*/maps (出 来 映 象 的 名 子 ) 对 应 struct vm area struct 中 的 一 个 成 员 : 


start end 





这 个 内 存 区 的 开始 和 结束 虚拟 地 址 . 
perm 


带 有 内 存 区 的 读 , 号 和 执行 许可 的 位 掩 码 . 这 个 成 员 描述 进程 可 以 对 属于 这 个 区 的 
页 做 什么 ， 成 员 的 最 后 一 个 字符 要 么 是 给 “私有 “的 p 要 么 是 给 共享 “的 s. 


























offset 


内 存 区 在 它 被 映射 到 的 文件 中 的 起 始 位 置 . 0 偏 移 意味 着 内 存 区 开始 对 应 文件 的 开 


始 . 


major minor 








持 有 已 被 映射 文件 的 设备 的 主 次 编号 ， 易 混淆 地 ， 对 于 设备 映射 ， 主 次 编号 指 的 是 
持 有 被 用 户 打 开 的 设备 特殊 文件 的 磁盘 分 区 ， 不 是 设备 自身 ， 


inode 
被 映射 文件 的 inode ^. 
image 


已 被 映 财 的 文件 名 (( 常 常 在 一 个 可 执行 映 象 中 ). 








15.1.6.1. vm_area_struct 结构 


当 一 个 用 户 空 间 进 程 调用 mmap 来 映射 设备 内 存 到 它 的 地 址 空间 ， 系 统 通 过 一 个 新 VMA 
代表 那个 映射 来 响应 ， 一 个 支持 mmap 的 驱动 (并 且 ， 因 此 ， 实 现 mmap 方法 ) 需 要 来 帮助 
那个 进程 来 完成 那个 VMA 的 初始 化 ， 驱动 编写 者 应 当 ， 因 此 ， 为 文 持 mmap 应 至 少 有 对 
VMA 的 最 少 的 理解 . 
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让 我 们 看 再 struct vm area struct 中 最 重要 的 成 员 ( Æ Xlinux/mm.h? HEX). 这些 
成 员 应 当 被 设备 驱动 在 它们 的 mmap 实现 中 使 用 .注意 内 核 维 护 VMA 的 链表 和 树 来 优化 
KAF, H. vm area struct 的 几 个 成 员 被 用 来 维护 这 个 组 织 . 因此 ，VMA 不 是 有 一 个 
驱动 任意 创建 的 ， 和 否则 这 个 结构 破坏 了 VMA 的 主要 成 员 是 下 面 (注意 在 这 些 成 员 和 我 们 
刚 看 到 的 /proc 输出 之 间 的 相似 ) 


























unsigned long vm start; 
unsigned long vm end; 


被 这 个 VMA 履 盖 的 虚拟 地 址 范围 ， 这些 成 员 是 在 /proc/*/maps 中 出 现 的 头 2 个 
字段 . 


struct file *vm file; 





一 个 指向 和 这 个 区 (如 果 有 一 个 ) 关 联 的 struct file 结构 的 指针 . 
unsigned long vm pgoff; 


文件 中 区 的 偏 移 ， 以 页 计 ， 当 一 个 文件 和 设备 被 映射 ， 这 是 映射 在 这 个 区 的 第 一 页 
的 文件 位 置 . 


unsigned long vm flags; 





描述 这 个 区 的 一 套 标 志 . 对 设备 驱动 编写 者 最 感 兴趣 的 标志 是 VM IO 和 

VM RESERVUED. VM IO 标志 一 个 VMA 作为 内 存 映 射 的 I/O 区 .在 其 他 方面 ， 

VM. IO 标志 阻止 这 个 区 被 包含 在 进程 核 转 储 中 .VM_RESERVED 告知 内 存 管理 系统 不 
要 试图 交换 出 这 个 VMA; 它 应 当 在 大 部 分 设备 映射 中 设置 . 














struct vm operations struct *vm ops; 











一 套 函 数 ， 内 核 可 能 会 调用 来 在 这 个 内 存 区 上 操作 .， 它 的 存在 指示 内 存 区 是 一 个 内 
核 ”对象 “” 象 我 们 已 经 在 全 书 中 使 用 的 struct file. 





void *vm private data; 








驱动 可 以 用 来 存储 它 的 自身 信息 的 成 员 . 





象 struct vm area struct, vm operations struct 定义 于 《linux/mm.h>; 它 包 括 下 面 
列 出 的 操作 .这 些 操作 是 唯一 需要 来 处 理 进程 的 内 存 需 要 的 ， 它 们 以 被 声明 的 顺序 列 出 . 
本 章 后 面 ， 一 些 这 些 函 数 被 实现 . 

















void (*open) (struct vm area struct **vma); 








open 方法 被 内 核 调 用 来 允许 实现 VMA 的 子 系统 来 初始 化 这 个 区 ， 这 个 方法 被 调用 
在 任何 时 候 有 一 个 新 的 引用 这 个 VMA( 当 生 成 一 个 新 进程 ， 例 如 )， 一 个 例外 是 当 
这 个 VMA 第 一 次 被 mmap 创建 时 ;在 这 个 情况 下 ， 驱 动 的 mmap 方法 被 调用 来 替 
代 . 
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void (close) (struct vm area struct *vma) ; 





当 一 个 区 被 销毁 ， 内 核 调 用 它 的 关闭 操作 .注意 没有 使 用 计数 关联 到 VMA; 这 个 区 
只 被 使 用 它 的 每 个 进程 打开 和 关闭 一 次 





struct page *(*nopage) (struct vm area struct *vma, unsigned long address, int 
*type) ; 








当 一 个 进程 试图 存 取 使 用 一 个 有 效 VMA 的 页 ， 但 是 它 当前 不 在 内 存 中 ，nopage 7j 
法 被 调用 (如 果 它 被 定义 ) 给 相关 的 区 ， 这 个 方法 返回 struct page 指针 给 物理 页 ， 
也 许 在 从 第 2 级 存储 中 读 取 它 之 后 ， 如果 nopage 方法 没有 为 这 个 区 定义 ， 一 个 
空 页 由 内 核 分 配 . 






































int Ckpopulate) (struct vm area struct *vm, unsigned long address, unsigned 
long len, pgprot t prot, unsigned long pgoff, int nonblock); 








这 个 方法 多 许 内 核 BUT 页 到 内 存 ， 在 它们 被 用 户 空间 存 取 之 前 ， 对 于 驱动 通常 没 


有 必要 来 实现 这 个 填充 方法 . 
15.1.7. 进程 内 存 映射 


内 存 管理 难题 的 最 后 部 分 是 进程 内 存 映 射 结构 ， 它 保持 所 有 其 他 数据 结构 在 一 起 ， 每 个 系 
统 中 的 进程 (除了 几 个 内 核 空间 帮助 线程 ) 有 一 个 struct mm struct. ( 定义 在 
《linux/sched.h>)， 它 含有 进程 的 虚拟 内 存 区 列表 ， 页 表 ， 和 各 种 其 他 的 内 存 管理 管理 信 
县 ， 包 括 一 个 旗 标 ( mmap_sem ) 和 一 个 自 旋 锁 ( page table lock ). 这 个 结构 的 指针 在 
任务 结构 中 ; 在 很 少 的 驱动 需要 存 取 它 的 情况 下 ， 通 常 的 方法 是 使 用 current->mm， 注 意 
内 存 关联 结构 可 在 进程 之 间 共 享 ; Linux 线程 的 实现 以 这 种 方式 工作 ， 例 如 . 


































































































这 总 结 了 我 们 对 Linux 内 存 管理 数据 结构 的 总 体 ， 有 了 这 些 ， 我 们 现在 可 以 继续 mmap 
系统 调用 的 实现 . 











^" 许多 非 -x86 体系 可 以 有 效 工作 在 没有 这 里 描述 的 内 核 / 用 户 空间 的 划分 ， 因 此 它们 可 以 
在 32- 位 系统 使 用 直到 4-GB 内 核 地 址 空间 . 但 是 ， 本 节 描 述 的 限制 仍然 适用 这 样 的 系统 
当 安 装 有 多 于 AGB 内 存 时 . 























^ BSS 的 名 子 是 来 自 一 个 老 的 汇编 操作 符 的 历史 和 遗物， 意思 是 ”由 符号 开始 的 块 “” 可 执行 
文件 的 BSS 段 不 存储 在 磁盘 上 ， 并 且 内 核 映 射 零 页 到 BSS 地 址 范围 . 


15.2. mmap 设备 操作 


内 存 映 财 是 现代 Unix 系统 最 有 趣 的 特性 之 一 ， 至 于 张 动 ， 内 存 映 射 可 被 实现 来 提供 用 户 
程序 对 设备 内 存 的 直接 存 取 . 


























一 个 mmap 用 法 的 明确 的 例子 可 由 查看 给 X Windows 系统 服务 器 的 虚拟 内 存 区 的 一 个 子 
集 来 见 到 : 
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cat /proc/731/maps 
000a0000-000c0000 rwxs 000a0000 03:01 282652 /dev/mem 
000f0000-00100000 r-xs 000f0000 03:01 282652 /dev/mem 
00400000-005c0000 r-xp 00000000 03:01 1366927 /usr/XllIR6/bin/Xorg 
006bf000-006f7000 rw-p 001bf000 03:01 1366927 /usr/XlIR6/bin/Xorg 
2a95828000-2a958a8000 rw-s fcc00000 03:01 282652 /dev/mem 
2a958a8000-2a9d8a8000 rw-s e8000000 03:01 282652 /dev/mem 








X 服务 器 的 VMA 的 完整 列表 很 长 ， 但 是 大 部 分 此 处 不 感 兴趣 ， 我 们 确实 见 到 ， 但 是 ， 
/dev/mm 的 4 个 不 同 映射 ， 它 给 出 一 些 关 于 X 服务 器 如 何 使 用 视频 卡 的 内 幕 . 第 一 个 映 
射 在 a0000， 它 是 视频 内 存 的 在 640-KB ISA 和 孔 里 的 标准 位 置 ， 再 往 下 ， 我 们 见 到 了 大 映 
射 在 e8000000， 这 个 地 址 在 系统 中 最 高 的 RAM 地 址 之 上 ， 这 是 一 个 在 适配器 上 的 视频 内 
存 的 直接 映射 . 











这 些 区 也 可 在 /proc/iomem 中 见 到 : 


000a0000-000bffff : Video RAM area 
000c0000-000ccfff : Video ROM 
000d1000-000d1fff : Adapter ROM 
000f0000-000fffff : System ROM 
d7f00000-fTefffff : PCI Bus #01 


e8000000-efffffff : 0000:01:00.0 
fc100000-fccfffff : PCI Bus #01 


fcc00000-fccOffff : 0000:01:00.0 








映射 一 个 设备 意味 着 关联 一 些 用 户 空 间 地 址 到 设备 内 存 . 无 论 何 时 程序 在 给 定 范围 内 读 或 
写 ， 它 实际 上 是 在 存 取 设 备 ， 在 X 服务 器 例子 里 ， 使 用 mmap 允许 快速 和 容易 地 存 取 视 
频 卡 内 存 ， 对 于 一 个 象 这 样 的 性 能 关键 的 应 用 ， 直 接 存 取 有 很 大 不 同 . 














如 你 可 能 期 望 的 ， 不 是 每 个 设备 都 出 借 自己 给 mmap 抽象 ; 这 样 没 有 意义 ， 例 如 ， 对 串口 
或 其 他 面向 流 的 设备 ，mmap 的 另 一 个 限制 是 映射 粒度 是 PAGE SIZE. 内 核 可 以 管理 虚拟 
地 址 只 在 页 表 一 级 ; 因此 ， 被 映射 区 必须 是 PAGE SIZE 的 整数 倍 并 且 必 须 位 于 是 

PAGE SIZE 整数 倍 开 始 的 物理 地 址 内核 强制 size 的 粒度 通过 做 一 个 稍微 大 些 的 区 域 ， 
如 果 它 的 大 小 不 是 页 大 小 的 整数 倍 . 



































这 些 限制 对 驱动 不 是 大 的 限制 ， 因 为 存 取 设 备 的 程序 是 设备 依赖 的 ， 因 为 程序 必须 知道 设 
备 如 何 工作 的 ， 程 序 员 不 会 太 烦 于 需要 知道 如 页 对 齐 这 样 的 细节 .一 个 更 大 的 限制 存在 当 
ISA 设备 被 用 在 非 x86 平台 时 ， 因 为 它们 的 ISA 硬件 视图 可 能 不 连续 ， 例 如 ， 一 些 
Alpha 计算 机 将 ISA 内 存 看 作 一 个 分 散 的 S 位 ，16 位 ，32 位 项 的 集合 ， 没 有 直接 映射 . 
这 种 情况 下 ， 你 根本 无 法 使 用 mmap. 对 不 能 进行 直接 映射 ISA 地 址 到 Alph 地 址 可 能 只 
REE 32- 位 和 64- 位 内 存 存 取 ，ISA 可 只 做 8- 位 和 16- 位 发 送 ， 并 且 没 有 办 法 来 透 
明 映 射 一 个 协议 到 另 一 个 . 




















使 用 mmap 有 相当 地 优势 当 这 样 做 可 行 的 时 候 . 例如 ， 我 们 已 经 看 到 X 服务 器 ， 它 传送 
大 量 数据 到 和 从 视频 内 存 ; 动态 映射 图 形 显示 到 用 户 空间 提高 了 耕 吐 量 ， 如 同一 个 
lseek/write 实现 相反 另 一 个 典型 例子 是 一 个 控制 一 个 PCI 设备 的 程序 .大 部 分 PCI 
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外 设 映射 它们 的 控制 寄存 器 到 一 个 内 存 地 址 ， 并 且 一 个 高 性 能 应 用 程序 可 能 首选 对 寄存 器 
的 直接 存 取 来 代替 反复 地 调用 ioctl 来 完成 它 的 工作 . 








W 








mmap 方法 是 file operation 结构 的 一 部 分 ， 当 发 出 mmap 系统 调用 时 被 引用 . 用 了 
mmap， 内 核 进 行 大 量 工 作 在 调用 实际 的 方法 之 前 ， 并 且 ， 因 此 ， 方 法 的 原型 非常 不 同 于 系 
统 调用 的 原型 ， 这 不 象 ioctl 和 poll 等 调用 ， 内 核 不 会 在 调用 这 些 方法 之 前 做 太 多 . 




















系统 调用 如 下 一 样 被 声明 (如 在 mmap (2) 手册 页 中 描述 的 ) ; 





mmap (caddr t addr, size t len, int prot, int flags, int fd, off t offset) 
另 一 方面 ， 文 件 操作 声明 如 下 : 


int (Ckmmap) (struct file *filp, struct vm area struct **vma); 





方法 中 的 filp 参数 象 在 第 3 章 介绍 的 那样 ， 而 vma 包含 关于 用 来 存 取 设 备 的 虚拟 地 址 
范围 的 信息 因此， 大 量 工作 被 内 核 完 成 ; 为 实现 mmap， 了 驱动 只 要 建立 合适 的 页 表 给 这 
个 地 址 范围 ， 并 且 ， 如 果 需 要 ， 用 新 的 操作 集合 奉 换 vma->vm_ops. 




















有 2 个 建立 页 表 的 方法 :调用 remap pfn range 一 次 完成 全 部 ， 或 者 一 次 一 页 通过 
nopage VMA 方法 .每 个 方法 有 它 的 优点 和 限制 ， 我 们 从 “一 次 全 部 "方法 开始 ， 它 更 简单 . 
从 这 里 ， 我 们 增加 一 个 真实 世界 中 的 实现 需要 的 复杂 性 . 























15.2.1. 使 用 remap pfn range 





建立 新 页 来 映射 物理 地 址 的 工作 由 remap pfn range 和 io remap page range 来 处 理 ， 
它们 有 下 面 的 原型 : 














int remap pfn range(struct vm area struct *vma, unsigned long virt addr, unsigned long pfn, 
unsigned long size, pgprot t prot); 

int io remap page range(struct vm area struct *vma, unsigned long virt addr, unsigned long 
phys addr, unsigned long size, pgprot t prot); 





由 这 个 函数 返回 的 值 常 常 是 0 或 者 一 个 负 的 错误 值 . 让 我 们 看 看 这 些 函 数 参 数 的 确切 含 
X: 








vma 
页 范围 被 映射 到 的 虚拟 内 存 区 

virt addr 
重新 映射 应 当 开始 的 用 户 虚拟 地 址 ， 这 个 函数 建立 页 表 为 这 个 虚拟 地 址 范围 从 
virt addr 到 virt addr size. 

pfn 
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页 帧 号 ， 对 应 虚拟 地 址 应 当 被 映射 的 物理 地 址 .这 个 页 帧 号 简单 地 是 物理 地 址 右 移 
PAGE SHIFT 位 ， 对 大 部 分 使 用 ，VMA 结构 的 vm paoff 成 员 正 好 包含 你 需要 的 值 . 
这 个 函数 影响 物理 地 址 从 (pfn<<PAGE SHIFT) 到 (pfn<<PAGE SHIFT)+size. 


























size 
正在 被 重新 映射 的 区 的 大 小 ， 以 字 节 . 


prot 








给 新 VMA 要 求 的 “protection”. 驱动 可 (并 且 应 当 ) 使 用 在 vma->vm page prot 中 
找到 的 值 . 





给 remap fpn range 的 参数 是 相当 直接 的 ， 并 且 它 们 大 部 分 是 已 经 在 VMA 中 提供 给 你 ， 
当 你 的 mmap 方法 被 调用 时 .你 可 能 好 奇 为 什么 有 2 个 函数 ， 但 是 .第 一 个 
(remap_pfn_range) 意图 用 在 pfn 指向 实际 的 系统 RAM 的 情况 下 ， 而 

io remap page range 应 当 用 在 phys addr 指向 1/0 内 存 时 ， 实 际 上 ， 这 2 个 函数 在 
每 个 体系 上 是 一 致 的 ， 除 了 SPARC， 并 且 你 在 大 部 分 情况 下 被 使 用 看 到 

remap pfn range . 为 编写 可 移植 的 驱动 ， 但 是 ， 你 应 当 使 用 remap pfn range 的 适合 
你 的 特殊 情况 的 变 体 . 







































































另 一 种 复杂 性 不 得 不 处 理 缓存 : 常常 地 ，3 引 用 设备 内 存 不 应 当 被 处 理 器 缓存 ， 常 常 系统 
BIOS 做 了 正确 设置 ， 但 是 它 也 可 能 通过 保护 字段 关闭 特定 VMA WRT. DERE, X 
个 级 别 上 关闭 缓存 是 高 度 处理 器 依赖 的 ， 好奇 的 读者 想 看 看 来 自 drivers/char/mem.c 的 
pgprot noncached 聘 数 来 找到 包含 什么 ， 我 们 这 里 不 进一步 讨论 这 个 主题 . 


15.2.2. 一 个 简单 的 实现 


如 果 你 的 驱动 需要 做 一 个 简单 的 线性 的 设备 内 存 映射 ， 到 一 个 用 户 地 址 空间 ， 

remap pfn range 几乎 是 所 有 你 做 这 个 工作 真正 需要 做 的 .下列 的 代码 从 
drivers/char/mem.c 中 得 来 ， 并 且 显 示 了 这 个 任务 如 何在 一 个 称 为 simple ( Simple 
Implementation Mapping Pages with Little Enthusiasm) 的 典型 模块 中 进行 的 . 
































static int simple remap mmap(struct file *filp, struct vm area struct *vma) 
{ 

if (remap pfn range(vma, vma->vm start, vm->vm pgoff, 

vma-?vm end - vma-?vm start, 

vma-?vm page prot)) 

return —-EAGAIN; 

vma-?vm ops = &simple remap vm ops; 

simple vma open(vma); 

return 0; 


} 








如 你 所 见 ， 重 新 映射 内 存 只 不 过 是 调用 remap pfn rage 来 创建 必要 的 页 表 . 
15.2.3. 添加 VMA 的 操作 
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如 我 们 所 见 ，vm_area_struct 结构 包含 一 套 操作 可 以 用 到 VMA， 现 在 我 们 看 看 以 一 个 简 
单 的 方式 提供 这 些 操作 .特别 地 ， 我 们 为 VMA 提供 open 和 close 操作 .这 些 操作 被 调 
用 无 论 何 时 一 个 进程 打开 或 关闭 VMA; 特别 地 ，open 方法 被 调用 任何 时 候 一 个 进程 产生 
和 创建 一 个 对 VMA 的 新 引用 . open 和 close VMA 方法 被 调用 加 上 内 核 进行 的 处 理 ， 
此 它们 不 需要 重新 实现 任何 那里 完成 的 工作 .它们 对 于 驱动 存在 作为 一 个 方法 来 做 任何 它 
们 可 能 要 求 的 附加 处 理 . 



























































如 同 它 所 证 明 的 ， 一 个 简单 的 驱动 例如 simple 不 需要 做 任何 额外 的 特殊 处 理 ， 我 们 已 创 
f£] open 和 close 方法 ， 它 打印 一 个 信息 到 系统 日 志 来 通知 大 家 它们 已 被 调用 ， 不 是 
特别 有 用 ， 但 是 它 确实 允许 我 们 来 显示 这 些 方法 如 何 被 提供 ， 并 且 见 到 当 它 们 被 调用 时 . 
































到 此 ， 我 们 忽略 了 缺 省 的 vma->vm_ops 使 用 调用 printk 的 操作 : 





void simple vma open(struct vm area struct *vma) 
{ 
printk(KERN NOTICE "Simple VMA open, virt %lx, phys %lx\n”, vma-^vm start, vma- 
>vm pgoff «€ PAGE SHIFT); 
} 


void simple vma close(struct vm area struct :*vma) 
{ 

printk (KERN NOTICE "Simple VMA close. n^); 

} 


static struct vm operations struct simple remap vm ops = { 
.open = simple vma open, 
.close = simple vma close 


E, 








为 使 这 些 操作 为 一 个 特定 的 映射 激活 ， 有 必要 存储 一 个 指向 simple remap um ops 指针 
在 相关 VMA 的 vm ops 成 员 中 .这 常常 在 mmap 方法 中 完成 ， 如 果 你 回 看 
simple remap mmap 例子 ， 你 见 到 这 些 代码 行 : 





vma->vm ops = &simple remap vm ops; 
simple vma open(vma); 





注意 对 simple vma open 的 明确 调用 . 因为 open 方法 不 在 初始 化 mmap 时 调用 ， 我 们 
必须 明确 调用 它 如 果 我 们 要 它 运 行 . 


15. 2. 4 使 用 nopage 映射 内 存 
尽管 remap pfn range 对 许多 人 工作 得 不 错 ， 如 果 不 是 大 部 分 人 ， 了 驱动 mmap 的 实现 有 


时 有 点 更 大 的 灵活 性 是 必要 的 .在 这 样 的 情况 下 ， 一 个 使 用 nopage VMA 方法 的 实现 可 被 
调用 . 
































一 种 nopage 方法 有 用 的 情况 可 由 mremap 系统 调用 引起 ， 它 被 应 用 程序 用 来 改变 一 个 被 
映射 区 的 绑 定 地 址 ， 如 它 所 发 生 的 ， 当 一 个 被 映射 的 VMA 被 mremap 改变 时 内 核 不 直接 
通知 驱动 ， 如 果 这 个 VMA 的 大 小 被 缩减 ， 内 核 可 静 静 地 刷 出 不 需要 的 页 ， 而 不 必 告 诉 驱 
动 . 相反 ， 如 果 这 个 VMA 被 扩大 ， 当 上 映 射 必须 为 新 页 建立 时 ， 驱 动 最 终 通 过 对 nopage 
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的 调用 发 现 ， 因 此 没有 必要 进行 特殊 的 通知 ，nopage 方法 ， 因 此 ， 如 果 你 想 支 持 mremap 
系统 调用 必须 实现 . 这里， 我 们 展示 一 个 简单 的 nopage 实现 给 simple 设备 . 




















nopage 方法 ， 记 住 ， 有 下 列 原 型 : 
struct page *(*nopage) (struct vm area struct *vma, unsigned long address, int *type); 


当 一 个 用 户 进 程 试图 存 取 在 一 个 不 在 内 存 中 的 VMA 中 的 一 个 页 ， 相 关 的 nopage 函数 被 
调用 .地 址 参数 包含 导致 出 错 的 虚拟 地 址 ， 向 下 圆 整 到 页 的 开始 ，nopage 函数 必须 定位 
并 返回 用 户 需 要 的 页 的 struct page 指针 ， 这 个 函数 必须 也 负责 递增 它 通 过 调用 

get page 宏 返 回 的 页 的 使 用 计数 . 














get page(struct page *pageptr); 























这 一 步 是 需要 的 来 保持 在 被 映射 页 的 引用 计数 正确 ， 内 核 为 每 个 页 维护 这 个 计数 ; 当 计 数 
到 0， 内 核 知 道 这 个 页 可 被 放置 在 空闲 列表 了 当 一 个 VMA 被 去 映射 ， 内 核 递 减 使 用 计 

数 给 区 中 每 个 页 ， 如 果 你 的 驱动 在 添加 一 个 页 到 区 时 不 递增 计数 ， 使 用 计数 过 早 地 成 为 0， 
系统 的 整体 性 被 破坏 了 . 




















nopage 方法 也 应 当 存 储 错 误 类 型 在 由 type 参数 指向 的 位 置 -- 但 是 只 当 那 个 参数 不 为 
NULL， 在 设备 驱动 中 ， 类 型 的 正确 值 将 总 是 VM FAULT MINOR. 























如 果 你 使 用 nopage， 当 调用 mmap 第 常 很 少 有 工作 来 做 ; 我 们 的 版 本 看 来 象 这 样 : 








static int simple nopage mmap (struct file *filp, struct vm area struct *vma) 
{ 
unsigned long offset = vma->vm pgoff << PAGE SHIFT; 


if (offset >= pa(high memory) || (filp->f flags & 0 SYNC)) 
vma->vm flags |= VM IO; 
vma->vm flags |= VM RESERVED; 


vma—>vm ops = &simple nopage vm ops; 


simple_vma_open (vma) ; 
return 0; 


} 





mmap 必须 做 的 主要 的 事情 是 用 我 们 自己 的 操作 来 替换 缺 省 的 (NULL) vm ops 指针 . nopage 
方法 接着 进行 一 次 重新 映射 一 页 并 且 返 回 它 的 struct page 结构 的 地 址 .因为 我 们 这 里 
只 实现 一 个 到 物理 内 存 的 窗口 ， 重 新 映射 的 步骤 是 简单 的 : 我 们 只 需要 定位 并 返回 一 个 指 
向 struct page 的 指针 给 需要 的 地 址 ， 我 们 的 nopage 方法 看 来 如 下 : 























struct page *simple vma nopage (struct vm area struct *vma, unsigned long address, int 
*type) 

{ 

struct page *pageptr; 

unsigned long offset = vma->vm pgoff << PAGE SHIFT; 

unsigned long physaddr = address - vma-?5vm start + offset; 

unsigned long pageframe = physaddr >> PAGE SHIFT; 
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if (!pfn valid(pageframe)) 

return NOPAGE SIGBUS; 

pageptr = pfn to page(pageframe); 
get page(pageptr); 

if (type) 


*type - VM FAULT MINOR; 
return pageptr; 


} 








因为 ， 再 一 次 ， 在 这 里 我 们 简单 地 映射 主 内 存 ，nopage 函数 只 需要 找到 正确 的 struct 

page 给 出 错 地 址 并 且 递 增 它 的 引用 计数 . 因此， 事件 的 请 求 序列 是 计算 需要 地 物理 地 址 ， 
并 且 通 过 右 移 它 PAGE SHIFT 位 转换 它 为 以 页 帧 号 ， 因 为 用 户 空间 可 以 给 我 们 任何 它 喜 欢 
的 地 址 ， 我 们 必须 确保 我 们 有 一 个 有 效 的 页 帧 ; pfn valid 函数 为 我 们 做 这 些 ， 如 果 地 址 
超 范 围 ， 我 们 返回 NOPAGE SIGBUS， 它 产生 一 个 总 线 信号 被 递交 给 调用 进程 . 


















































否则 ，pfn_to_page 获得 必要 的 struct page 指针 ; 我 们 可 递增 它 的 引用 计数 (使 用 调用 
get page)Jf HIRVE. 





nopage 方法 正常 地 返回 一 个 指向 struct page 的 指针 . 如果， 由 于 某 些 原因 ， 一 个 正常 
的 页 不 能 返回 ( 即 ， 请 求 的 地 址 超出 驱动 的 内 存 区 )，NOPAGE_SIGBUS 可 被 返回 来 指示 错误 ; 
这 是 上 的 简单 代码 所 做 的 . nopage 也 可 以 返回 NOPAGE 00M 来 指示 由 于 资源 限制 导致 的 

失败 . 


注意 ， 这 个 实现 对 ISA 内 存 区 起 作用 ， 但 是 对 那些 在 PCI 总 线 上 的 不 行 ， PCI 内 存 被 映 
射 在 最 高 的 系统 内 存 之 上 ， 并 且 在 系统 内 存 中 没有 这 些 地 址 的 入 口 ， 因为 没有 struct 
page 来 返回 一 个 指向 的 指针 ，nopage 不 能 在 这 些 情况 下 使 用 ; 你 必须 使 用 
remap pfn range 代替 . 

















如 果 nopage 方法 被 留置 为 ULL， 处 理 页 出 错 的 内 核 代码 映射 零 页 到 出 错 的 虚拟 地 址 . 
零 页 是 一 个 写 时 拷贝 的 页 ， 它 读 作为 0， 并 且 被 用 来 ， 例 如 ， 映 射 BSS 段 ， 任 何 引用 零 页 
的 进程 都 看 到 : 一 个 填 满 0 的 页 ， 如 果 进 程 写 到 这 个 页 ， 它 最 终 修改 一 个 私有 页 ， 因 此 ， 
如 果 一 个 进程 扩展 一 个 映射 的 页 通过 调用 mremap， 并 且 驱 动 还 没有 实现 nopage， 进 程 结 
束 以 零 填充 的 内 存 代替 一 个 段 错误 


15. 2. 5。 重 新 映射 特定 I/O [X 


所 有 的 我 们 至 今 所 见 的 例子 是 /dev/mem 的 重新 实现 ， 它 们 重新 映射 物理 地 址 到 用 户 空 间 . 
典型 的 驱动 ， 但 是 ， 想 只 映射 应 用 到 它 的 外 设 设备 的 小 的 地 址 范围 ， 不 是 全 部 内 存 ， 为 了 
映射 到 用 户 空间 只 一 个 整个 内 存 范 围 的 子 集 ， 驱 动 只 需要 使 用 偏 移 ， 下 面 为 一 个 驱动 做 这 
个 技巧 来 映射 一 个 simple region size FRAK, EAE HHE 

simple region start (应 当 是 页 对 齐 的 ) 开始 : 






































unsigned long off = vma->vm pgoff << PAGE _ SHIFT ; 
unsigned long physical = simple region start + off; 
unsigned long vsize = vma-?vm end - vma-?vm start; 
unsigned long psize - simple region size - off; 


369 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] OD O O 0O IO [] O Linux[] D] E] UE [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
if (vsize > psize) 
return -EINVAL; /* spans too high */ 
remap pfn range(vma, vma >vm start, physical, vsize, vma-^vm page prot); 





除了 计算 偶 移 ， 这 个 代码 引入 了 一 个 检查 来 报告 一 个 错误 当 程 序 试图 映射 超过 在 目标 设备 
的 1/0 区 可 用 的 内 存 . 在 这 个 代码 中 ，psize 是 已 指定 了 偏 移 后 剩 下 的 物理 1/0 大 小 ， 
并 且 vsize 是 虚拟 内 存 请 求 的 大 小 ; 这 个 函数 拒绝 映射 超出 允许 的 内 存 范围 的 地 址 . 


























注意 ， 用 户 空 间 可 一 直 使 用 mremap 来 扩展 它 的 映射 ， 可 能 超过 物理 设备 区 的 结尾 ， 如 果 
你 的 驱动 不 能 定义 一 个 nopage method， 它 从 不 会 得 到 这 个 扩展 的 通知 ， 并 且 额 外 的 区 映 
射 到 零 页 ， 作 为 一 个 驱动 编写 者 ， 你 可 能 很 想 阻 止 这 种 行为 ; 映射 理由 到 你 的 区 的 结尾 不 
是 一 个 明显 的 坏事 情 ， 但 是 很 不 可 能 程序 员 希 望 它 发 生 . 





























最 简单 的 方法 来 阻止 映射 扩展 是 实现 一 个 简单 的 nopage 方法 ， 它 一 直 导 致 一 个 总 线 信和 号 
被 发 送 给 出 错 进程 ， 这样 的 一 个 方法 可 能 看 来 如 此 : 











struct page *simple nopage (struct vm area struct **vma, 
unsigned long address, int *type); 
{ return NOPAGE SIGBUS; /* send a SIGBUS */} 





如 我 们 已 见 到 的 ，nopage 方法 只 当 进程 解 引 用 一 个 地 址 时 被 调用 ， 这 个 地 址 在 一 个 已 知 
的 VMA 中 但 是 当前 没有 有 效 的 页 表 入 口 给 这 个 VMA. 如果 有 已 使 用 remap pfn range 来 
映射 全 部 设备 区 ， 这 里 展示 的 nopage 方法 上 只 被 调用 来 引用 那个 区 外 部 .因此 ， 它 能 够 安 
全 地 返回 NOPAGE SIGBUS 来 指示 一 个 错误 .当然 ， 一 个 更 加 完整 的 nopage 实现 可 以 检 
查 是 否 出 错 地 址 在 设备 区 内 ， 并 且 如 果 是 这 样 进行 重新 映射 ， 但 是 ， 再 一 次 ，nopage 无 
法 在 PCI 内 存 区 工作 ， 因 此 PCI 映射 的 扩展 是 不 可 能 芯 


15. 2. 6， 重 新 映射 RAM 


remap pfn range 的 一 个 有 趣 的 限制 是 它 只 存 取 保留 页 和 在 物理 内 存 顶 之 上 的 物理 地 址 . 
在 Linux， 一 个 物理 地 址 页 被 标志 为 “保留 的 “在 内 存 映射 中 来 指示 它 对 内 存 管理 是 不 可 用 
的 . 在 PC 上 ， 例 如 ，640 KB 和 1MB 之 间 被 标记 为 保留 的 ， 如 同 驻 留 内 核 代码 自身 的 页 . 
保留 页 被 锁定 在 内 存 并 且 是 唯一 可 被 安全 映射 到 用 户 空间 的 ; 这 个 限制 是 系统 稳定 的 一 个 
基本 要 求 . 




































































KIE, remap pfn range 不 允许 你 重新 映射 传统 地 址 ， 这 包括 你 通过 调用 get free page 
获得 的 ， 相反 ， 它 映射 在 零 页 ， 所 有 都 看 来 正常 ， 除 了 进程 见 到 私有 的 ， 零 填充 的 页 而 不 
是 它 在 期 望 的 被 重新 映射 的 RAM， 这 个 函数 做 了 大 部 分 硬件 张 动 需要 来 做 的 所 有 事情 ， 因 
为 它 能 够 重新 映射 高 端 PCI 缓冲 和 ISA 内存. 

















remap pfn range 的 限制 可 通过 运行 mapper 见 到 ， 其 中 一 个 例子 程序 在 misc-progs 在 
0 Reilly 的 FTP 网 站 提供 的 文件 .mapper 是 一 个 简单 的 工具 可 用 来 快速 测试 mmap 系 
统 调用 ; 它 映 射 由 命令 行 选项 指定 的 一 个 文件 的 只 读 部 分 ， 并 且 输 出 被 映射 的 区 到 标准 输 
出 下面 的 部 分 ， 例 如 ， 显 示 /dev/mem 没有 映射 位 于 地 址 64 KB 的 物理 页 -- 相 反 ， 我 
们 看 到 一 个 页 充满 0 〈 例 子 中 的 主机 是 一 台 PC， 但 是 结果 应 该 在 其 他 平台 上 相同 ) 








morgana. root# ./mapper /dev/mem 0x10000 0x1000 | od -Ax -t xl 
mapped ^/dev/mem^ from 65536 to 69632 
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000000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 
* 


001000 





remap pfn range 处 理 RAM 的 不 能 之 处 说 明基 于 内 存 的 设备 如 scull 不 能 轻易 实现 
mmap， 因 为 它 的 设备 内 存 是 传统 内 存 ， 不 是 I/0 内 存 ， 幸 运 的 是 ， 一 个 相对 容易 的 方法 
对 任何 需要 映射 RAM 到 用 户 空 间 的 驱动 都 可 用 ; 它 使 用 我 们 前 面 已 见 过 的 nopage 方法 . 


15.2.6.1. 使 用 nopage 方法 重新 映射 RAM 


























映射 真实 内 存 到 用 户 空间 的 方法 是 使 用 vm_ops-《nopage 来 一 次 一 个 地 处 理 页 错 .， 一 个 简 
单 的 实现 是 scullp 模块 的 一 部 分 ， 在 第 8 张 介绍 . 











scullp 是 一 个 面向 页 的 字符 设备 ， 因 为 它 是 面向 页 的 ， 它 可 以 在 它 的 内 存 上 实现 mmap. 
实现 内 存 映射 的 代码 使 用 一 些 在 “Linux 中 的 内 存 管理 “一 节 中 介绍 的 概念 . 














在 检查 代码 前 ， 让 我 们 查看 影响 在 scullp 中 的 mmap 实现 的 设计 选择 . 





。 scullp 只 要 设备 被 映射 就 不 会 释放 设备 内 存 ， 这 是 策略 问题 而 非 一 个 需求 ， 并 且 
它 不 同 于 scull 和 类 似 设备 的 行为 ， 它 们 被 截 短 为 0 当 为 写 而 打开 时 .对 释放 一 
个 映射 的 scullp 设备 的 拒绝 ， 允 许 一 个 进程 履 盖 被 其 他 进程 映射 的 区 .， 因 此 你 
可 以 测试 并 且 看 进程 和 设备 内 存 如 何 交 互 . 为 避免 释放 一 个 映射 设备 ， 驱 动 必 须 保 
持 一 个 激活 映射 的 计数 ; 在 设备 结构 中 的 vmas 成 员 被 用 来 作 此 目的 . 

。 内 存 映 射 仅 当 scullp 的 order 参数 (在 模块 加 载 时 间 设 置 ) 是 0 时 进行 ， 这 个 参 
数控 制 ^ get free pages 如 何 被 调用 ( 见 第 8 章 “get_free_page 及 其 友 ” 一 
43). 0 order 的 限制 ( 这 强制 一 次 分 配 一 页 ， 而 不 是 以 大 的 组 ) 被 
. get free pages 的 内 部 所 规定 ， 它 是 scullp 所 使 用 的 分 配 函 数 ， 为 最 大 化 分 

配 性 能 ，Linux 内 核 维护 一 个 空 闪 页 列表 给 每 个 分 配 级 别 ， 并 且 只 有 在 一 个 簇 中 第 

一 页 的 引用 计数 被 get free pages 递增 以 及 被 free pages 递减 .mmap 方法 对 

一 个 scullp 设备 被 禁止 ， 如 果 分 配 级 大 于 0， 因 为 nopage 处 理 单个 页 而 不 是 一 

$E UL. scullp 不 知道 如 何 正确 管理 是 高 级 别 分 配 的 一 部 分 的 页 的 引用 计数 . (如 果 

你 需要 重新 回顾 scullp 和 内 存 分 配 级 别 值 ， 返 回 第 8 章 的 “一 个 使 用 整 页 的 

scull: scullp 一 节 . ) 

































































































































































0- 级 的 限制 大 部 分 是 用 来 保持 代码 简单 ， 它 可 能 正确 实现 mmap 给 多 页 分 配 ， 通 过 使 用 页 
的 使 用 计数 ， 但 是 它 可 能 只 增加 了 例子 的 复杂 性 而 没有 介绍 任何 有 趣 的 信息 . 


























打算 根据 刚刚 概括 的 规则 来 映射 RAM 的 代码 ， 需 要 实现 open，close， 和 nopage VMA 
方法 ; 它 还 需要 存 取 内 存 映 射 来 调整 页 使 用 计数 . 

















这 个 scullp mmap 的 实现 非常 短 ， 因 为 它 依赖 nopage 函数 来 做 所 有 的 感 兴趣 的 工作 : 


int scullp mmap(struct file *filp, struct vm area struct *vma) 


{ 


struct inode *inode = filp->f dentry->d_ inode; 
/* refuse to map if order is not 0 */ 
if (scullp devices[iminor (inode)]. order) 
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return -ENODEV; 


/* don't do anything here: "nopage^ will fill the holes */ 
vma-?»vm ops = &scullp vm ops; 

vma-»vm flags |= VM RESERVED; 

vma-?vm private data = filp-?private data; 
scullp vma open(vma); 

return 0; 














if 语句 的 目的 是 避免 映射 分 配 级 别 不 是 0 的 设备 ，scullp 的 操作 存储 在 vm ops 成 员 ， 
并 旦 一 个 指 问 设 备 结构 的 指针 藏 于 vm private data 成 员 ， 最 后 ，vm_ops->open 被 调用 
来 更 新 设备 的 激活 映射 的 计数 . 





open 和 close 简单 地 跟踪 映射 计数 并 如 下 定义 : 


void scullp vma open(struct vm area struct *vma) 
{ 
struct scullp dev *dev = vma-?vm private data; 
dev-^vmas-t*; 


} 


void scullp vma close(struct vm area struct *vma) 
{ 
struct scullp dev *dev = vma-?vm private data; 
dev-^vmas--; 


} 


大 部 分 地 工作 接 下 来 由 nopage 进行 . 在 scullp 实现 中 ， 给 nopage 的 地 址 参数 被 用 来 
计算 设备 中 的 偏 移 ; 这 个 偏 移 接着 被 用 来 在 scullp 内 存 树 中 查找 正确 的 页 . 


struct page *scullp vma nopage(struct vm area struct *vma, unsigned long address, int 
*type) 
{ 

unsigned long offset; 

struct scullp dev *ptr, *dev = vma-?vm private data; 

struct page *page - NOPAGE SIGBUS; 

void *pageptr = NULL; /* default to "missing */ 


down (&dev-5sem) ; 
offset = (address - vma-^vm start) + (vma->vm pgoff << PAGE SHIFT); 
if (offset >= dev->size) 

goto out; /* out of range */ 


/* 

* Now retrieve the scullp device from the list, then the page 
* [f the device has holes, the process receives a SIGBUS when 
* accessing the hole 

*/ 

offset >>= PAGE SHIFT; /* offset is a number of pages */ 

for (ptr = dev; ptr && offset >= dev—qset;) 

{ 
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ptr = ptr-?next; 
offset -= dev-2qset; 
} 
if (ptr && ptr->data) 
pageptr = ptr—datal[offset]; 
if (lpageptr) 
goto out; /* hole or end-of-file */ 
page = virt to page(pageptr); 





/* got it, now increment the count */ 
get page(page); 
if (type) 
«type = VM FAULT MINOR; 
out: 
up (&dev-^sem) ; 
return page; 


} 











scullp 使 用 由 get free pages 获取 的 内 存 . 那个 内 存 使 用 逻辑 地 址 寻 址 ， 因 此 所 有 的 
scullp nopage 为 获得 一 个 struct page 指针 不 得 不 做 的 是 调用 virt to page. 





现在 scullp 设备 如 同期 望 般 工作 了 ， 就 象 你 在 这 个 从 mapper 工具 中 的 例子 输出 能 见 到 
的 ， 这里， 我 们 发 送 一 个 /dev 的 目录 列表 (一 个 长 的 ) 到 scullp 设备 并 且 接 着 使 用 
mapper 工具 来 查看 这 个 列表 的 各 个 部 分 连同 mmap. 








morgana% ls -l /dev > /dev/scullp 

morgana% ./mapper /dev/scullp 0 140 

mapped ^/dev/scullp^ from 0 (0x00000000) to 140 (0x0000008c) 
total 232 

Crw-——-——- 1 root root 10, 10 Sep 15 07:40 adbmouse 
crw-r--r--1 root root 10, 175 Sep 15 07:40 agpgart 

morgana% ./mapper /dev/scullp 8192 200 mapped "/dev/scullp^ from 8192 (0x00002000) to 8392 
(0x000020c8) 

d0h1494 

brw-rw--—- 1 root floppy 2, 92 Sep 15 07:40 fdOhl660 
brw-rw--—- 1 root floppy 2, 20 Sep 15 07:40 fd0h360 
brw-rw--—- 1 root floppy 2, 12 Sep 15 07:40 fd0H360 


15.2. 7， 重 映射 内 核 虚拟 地 址 


尽管 它 极 少 需要 ， 看 一 个 驱动 如 何 使 用 mmap 映射 一 个 内 核 虚 拟 地 址 到 用 户 空 间 是 有 趣 的 . 
记 住 ， 一 个 真正 的 内 核 虚 拟 地 址 ， 是 一 个 由 诸如 vmalloc 的 函数 返回 的 地 址 一 就 是 ， 

一 个 映射 到 内 核 页 表 中 的 虚拟 地 址 ， 本 节 的 代码 来 自 scullv， 这 是 如 同 scullp 但 是 通 
过 vmalloc 分 配 它 的 存储 的 模块 . 



































大 部 分 的 scullv 实现 如 同 我 们 刚刚 见 到 的 scullp， 除 了 没有 必要 检查 控制 内 存 分 配 的 
order 参数 .这 个 的 原因 是 vmalloc 分 配 它 的 页 一 次 一 个 ， 因 为 单 页 分 配 比 多 页 分 配 更 
加 可 能 成 功 ， 因 此 ， 分 配 级 别 问 题 不 适用 vmalloc 分 配 的 空间 . 















































此 外 ， 在 由 scullp 和 scullv 使 用 的 nopage 实现 中 只 有 一 个 不 同 ， 记 住 ，scullp 一 
且 它 发 现 感 兴趣 的 页 ， 将 使 用 virt to page 来 获得 对 应 的 struct page 指针 ， 那 个 函 


373 





Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu,Fedora,SUSEL] O O O 0O IO 0O O Linux[] HD] E] UE L] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 
数 不 使 用 内 核 虚 拟 地 址 ， 但 是 . 相反 ， 你 必须 使 用 mvalloc to page. 因此 scullv 版 本 
的 nopage 的 最 后 部 分 看 来 如 此 : 








/* 

* After scullv lookup, “page” is now the address of the page 
* needed by the current process. Since it's a vmalloc address, 
* turn it into a struct page 

*/ 

page = vmalloc to page (pageptr); 


/* got it, now increment the count */ 
get_page (page) ; 
if (type) 
*type = VM FAULT MINOR; 
out: 
up (&dev—^sem) ; 
return page; 





基于 这 个 讨论 ， 你 可 能 也 想 映 射 由 ioremap 返回 的 地 址 到 用 户 空间 .但 是 ， 那 可 能 是 一 
个 错误 ; KA ioremap 的 地 址 是 特殊 的 并 且 不 能 作为 正常 的 内 核 虚拟 地 址 对 待 ， 相 反 ， 
你 应 当 使 用 remap pfn range 来 重新 映射 1/0 内 存 区 到 用 户 空间 . 


15. 3， 进 行 直接 I/O 


大 部 分 1/0 操作 是 通过 内 核 缓 冲 的 ， 一 个 内 核 空 间 缓冲 区 的 使 用 允许 一 定 程 度 的 用 户 空 
间 和 实际 设备 的 分 离 ， 这 种 分 离 能 够 使 编程 容易 并 且 还 可 以 在 许多 情况 下 有 性 能 的 好 处 . 
但 是 ， 有 这 样 的 情况 它 对 于 进行 1/0 直接 到 或 从 一 个 用 户 空 间 缓 冲 区 是 有 好 处 的 ， 如果 
正 被 传输 的 数据 量 大 ， 不 使 用 一 个 额外 的 拷贝 直接 通过 内 核 空 间 传输 数据 可 以 加 快 事情 进 
展 . 









































2.6 内 核 中 一 个 直接 1/0 使 用 的 例子 是 SCSI 磁带 驱动 . 流动 的 磁带 能 够 传送 大 量 数据 
通过 系统 ， 并 且 磁 融 传 送 常 第 是 面向 记录 的 ， 因 此 在 内 核 中 绥 冲 数据 没有 好 处 ， 因 此 ， 妆 
条 件 正确 (用 户 空间 缓冲 区 是 页 对 齐 的 ， 例 如 )，SCSI 磁带 驱动 进行 它 的 1/0 而 不 拷贝 数 
jn. 






































就 是 说 ， 重 要 的 是 认识 到 直接 1/0 不 是 一 直 提供 人 们 期 望 的 性 能 提高 .设置 直接 1/0 

( 它 调用 出 错 换 入 并 且 除 下 相关 的 用 户 空 间 ) 的 开销 可 能 是 不 小 的 ， 并 且 被 缓冲 的 1/0 的 
好 处 丢失 了 . 例如， 直接 I/0 的 使 用 要 求 write 系统 调用 同步 操作 ; 否则 应 用 程序 不 能 
知道 什么 时 间 它 可 以 重新 使 用 它 的 1/0 缓冲 .停止 应 用 程序 直到 每 个 write 完成 可 能 拖 
慢 事 情 ， 这 是 为 什么 使 用 直接 1/0 的 应 用 程序 也 常常 使 用 异步 1/0 操作 的 原因 . 


















































事情 的 真正 内 涵 是 ， 在 任何 情况 下 ， 在 一 个 字符 驱动 实现 直接 I/0 常常 是 不 必要 并 且 可 
能 是 有 害 的 ， 你 应 当 只 在 你 确定 缓冲 的 1/0 的 开销 确实 拖 慢 了 系统 的 情况 下 采取 这 个 步 
又 .还 要 注意 ， 块 和 网 络 驱 动 不 必 担心 实现 直接 1/0; 这 2 种 情况 下 ， 内 核 中 的 高 级 的 
代码 在 需要 时 建立 和 使 用 直接 I/0， 并 且 驱 动 级 别 的 代码 甚至 不 需要 知道 直接 1/0 在 被 
进行 中 ， 
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实现 直接 1/0 的 关键 是 一 个 称 为 get user pages 的 函数 ， 它 在 《linux/mm. h> 中 定义 
使 用 下 列 原 型 : 





int get user pages (struct task struct *tsk, 
struct mm struct *mm, 

unsigned long start, 

int len, 

int write, 

int force, 

struct page **pages 

struct vm area struct ***vmas); 


这 个 函数 有 几 个 参数 : 


tsk 








一 个 指向 进行 1/0 的 任务 的 指针 ; 它 的 主要 目的 是 告知 内 核 谁 应 当 负责 任何 一 个 
当 设 置 缓 冲 时 导致 的 页 错 . 这 个 参数 几乎 一 直 作 为 current 传递 . 
































mm 
一 个 内 存 管理 结构 的 指针 ， 描 述 被 映射 的 地 址 空间 .mm_struct 结构 是 捆绑 一 个 进 
程 的 虚拟 地 址 空间 所 有 的 部 分 在 一 起 的 ， 对 于 驱动 的 使 用 ， 这 个 参数 应 当 一 直 是 
current-?mm. 

start len 


start 是 (页 对 齐 的 ) 用 户 空 间 缓冲 的 地 址 ， 并 且 len 是 缓冲 的 长 度 以 页 计 . 
write force 


如 果 write 是 非 零 ， 这 些 页 被 映射 来 写 (当然 ， 隐 含 着 用 户 空 间 在 进行 一 个 读 操 
TE). force 标志 告知 get user pages 来 覆盖 在 给 定 页 上 的 保护 ， 来 提供 要 求 的 
权限 ; 驱动 应 当 一 直 传 递 0 在 这 里 . 























pages vmas 





输出 参数 ， 在 成 功 完成 后 ， 页 包含 一 系列 指向 struct page 结构 的 指针 来 描述 用 
户 空间 缓冲 ， 并 且 vmas 包含 指向 被 关联 的 VMA 的 指针 ， 这 些 参数 应 当 ， 显 然 ， 
指向 能 够 持 有 至 少 len 个 指针 的 数组 ， 任 一 个 参数 可 能 是 NULL， 但 是 你 需要 ， 至 
少 ，struct page 指针 来 实际 对 缓冲 操作 . 











get user pages 是 一 个 低级 内 存 管理 函数 ， 带 一 个 相称 的 复杂 的 接口 ， 它 还 要 求 给 这 个 
地 址 空间 的 mmap 读者 / 写 者 旗 标 在 调用 前 被 以 读 模式 获得 . 结果 是 ， 对 
get user pages 常常 看 来 象 : 








down read(&current-^mm-^mmap sem); 
result = get user pages(current, current-^mm, ...); 
up read(&current-^mm-^mmap sem); 
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返回 值 是 实际 映射 的 页 数 ， 它 可 能 小 于 请 求 的 数目 (但 是 大 于 0). 


一 旦 成 功 完 成 ， 调 用 者 有 一 个 页 数组 指 问 用 户 空间 缓冲 ， 它 被 锁 入 内 存 ， 为 直接 在 缓冲 上 
操作 ， 内 核 空间 代码 必须 将 每 个 struct page 指针 转换 为 一 个 内 核 虚 拟 地 址 ， 使 用 kmap 
或 者 kmap atomic. 常常 地 ， 但 是 ， 对 于 可 以 使 用 直接 1/0 的 设备 在 使 用 DMA 操作 ， 因 
此 你 的 驱动 将 可 能 想 从 struct page 指针 数组 创建 一 个 发 散 / 汇 聚 列表 .我 们 在 “发 散 / 
汇聚 映射 一 节 中 讨论 如 何 做 这 个 . 


























一 旦 你 的 直接 1/0 操作 完成 了 ， 你 必须 释放 用 户 页 ， 在 这 样 做 之 前 ， 但 是 ， 你 必须 通知 
内 核 如 果 你 改变 了 这 些 页 的 内 容 . 和 否则， 内 核 可 能 认为 这 些 页 是 “干净 “的 ， 意 味 着 它们 匹 
配 一 个 在 交换 设备 中 发 现 的 一 个 拷贝 ,并且 释放 它们 不 写 出 它们 到 备份 存储 ， 因 此 ， 如 果 
你 已 改变 了 这 些 页 (响应 一 个 用 户 空间 写 请 求 )， 你 必须 标志 每 个 被 影响 到 的 页 为 脏 ， 使 用 
一 个 调用 : 








void SetPageDirty(struct page *page); 


(这 个 宏 定义 在 《linux/page-flags. h>). 进行 这 个 操作 的 代码 首先 检查 来 保证 页 不 在 内 
存 映射 的 保留 部 分 ， 这 部 分 从 不 被 换 出 ， 因 此 ， 代 码 常常 看 来 如 此 : 





if (! PageReserved(page)) 
SetPageDirty (page) ; 











因为 用 户 空间 内 存 正 常 地 不 置 为 保留 的 ， 这 个 检查 严格 地 不 应 当 是 必要 的 ， 但 是 当 你 深入 
内 存 管理 子 系统 时 ， 最 好 全 面 并 且 仔细 

















不 管 这 些 页 是 和 否 已 被 改变 ， 它 们 必须 从 页 缓存 中 释放 ， 或 者 它们 一 直 留 在 那里 ， 这 个 调用 
是 : 





void page cache release(struct page **page); 





这 个 调用 应 当 ， 当 然 ， 在 页 已 被 标识 为 胜 之 后 进行 ， 如 果 需 要 . 
15. 3. 1. 异步 I/0 
增加 到 2.6 内 核 的 一 个 新 的 特性 是 异步 I/0 能 力 ， 异步 1/0 允许 用 户 空间 来 初始 化 操 


作 而 不 必 等 竺 它们 的 完成 ; 因此 ， 一 个 应 用 程序 可 以 在 它 的 I/0 在 进行 中 时 做 其 他 的 处 
理 ， 一 个 复杂 的 ， 高 性 能 的 应 用 程序 还 可 使 用 异步 1/0 来 使 多 个 操作 在 同一 个 时 间 进 行 . 



































异步 1/0 的 实现 是 可 选 的 ， 并 且 很 少 几 个 驱动 作者 关心 ; 大 部 分 设备 不 会 从 这 个 能 力 中 
受益 .如 同 我 们 将 在 接 下 来 的 章节 中 见 到 的 ， 块 和 网 络 驱 动 在 整个 时 间 是 完全 异步 的 ， 因 
此 只 有 字符 驱动 对 于 明确 的 异步 1/0 支持 是 候选 的 ， 一 个 字符 设备 能 够 从 这 个 文 持 中 受 
益 ， 如 果 有 好 的 理由 来 使 多 个 1/0 操作 在 任 一 给 定时 间 同 时 进行 ， 一 个 好 例子 是 流 化 磁 
带 驱 动 ， 这 里 这 个 驱动 可 停止 并 且 明 显 慢 下 来 如 果 1/0 操作 没有 尽快 到 达 ， 一 个 应 用 程 
序 试图 从 一 个 流 驱 动 中 获得 最 好 的 性 能 ， 可 以 使 用 异步 1/0 来 使 多 个 操作 在 任何 时 间 准 
备 好 进行 . 
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对 于 少见 的 需要 实现 异步 1/0 的 驱动 作者 ， 我 们 提供 一 个 快速 的 关于 它 如 何 工作 的 概观 . 
我 们 涉及 异步 1/0 在 本 章 ， 因 为 它 的 实现 几乎 一 直 也 包括 直接 1/0 操作 (如 果 你 在 内 核 
中 缓冲 数据 ， 你 可 能 常常 实现 异步 动作 而 不 必 在 用 户 空 间 出 现 不 必要 的 复杂 性 ). 
































支持 异步 1/0 的 驱动 应 当 包 含 <linux/aio.h>》， 有 3 个 file operation 方法 给 异步 
I/0 实现 : 





ssize t (*aio read) (struct kiocb *iocb, char *buffer, 

size t count, loff t offset); 

ssize t (*aio write) (struct kiocb *iocb, const char *buffer, 
size t count, loff t offset); 

int (*aio fsync) (struct kiocb *iocb, int datasync); 


aio fsync 操作 只 对 文件 系统 代码 感 兴趣 ， 因 此 我 们 在 此 不 必 讨 论 它 .其 他 2 个 ， 

aio read 和 aio write， 看 起 来 非常 象 常 规 的 read 和 write 方法 ， 但 是 有 几 个 例外 . 
一 个 是 offset 参数 由 值 传递 ; 异步 操作 从 不 改变 文件 位 置 ， 因 此 没有 理由 传 一 个 指针 给 
它 ， 这 些 方法 还 使 用 iocb (1/0 控制 块 ”) 参数， 这 个 我 们 一 会 儿 就 到 . 




















aio read 和 aio write 方法 的 目的 是 初始 化 一 个 读 或 写 操 作 ， 在 它们 返回 时 可 能 完成 或 
者 可 能 没完 成 ， 如 果 有 可 能 立刻 完成 操作 ， 这 个 方法 应 当 这 样 做 并 且 返 回 通常 的 状态 : 被 
传输 的 字 节 数 或 者 一 个 负 的 错误 码 ， 因此， 如 果 你 的 驱动 有 一 个 称 为 my read 的 读 方 法 ， 
下 面 的 aio read 方法 是 全 都 正确 的 (尽管 特别 无 意义 ) : 
































static ssize t my aio read(struct kiocb *iocb, char *buffer, ssize t count, loff t offset) 
{ 
return my read(iocb->ki filp, buffer, count, &offset); 


} 


注意 ，struct file 指针 在 kocb 结构 的 ki filp 成 员 中 . 





如 果 你 支持 异步 I[/0， 你 必须 知道 这 个 事实 ， 内 核 可 能 ， 个 尔 ， 创 建 “ 异 步 I0CB”， 它 们 
是 ， 本 质 上 ， 必 须 实际 上 被 同步 执行 的 异步 操作 . 有 人 可 能 非常 奇怪 为 什么 要 这 样 做 ， 但 
是 最 好 只 做 内 核 要 求 做 的 .同步 操作 在 IOCB 中 标识 ; 你 的 驱动 应 当 询 问 状 态 ， 使 用 : 

















int is sync kiocb(struct kiocb *iocb); 





如 果 这 个 函数 返回 一 个 非 零 值 ， 你 的 驱动 必须 同步 执行 这 个 操作 . 











但 是 ， 最 后 ， 所 有 这 个 结构 的 意义 在 于 使 能 异步 操作 .如 果 你 的 驱动 能 够 初始 化 这 个 操作 
(或 者 ， 简 单 地 ， 将 它 排 队 到 它 能 够 被 执行 时 )， 它 必须 做 两 件 事 情 : 记 住 它 需要 知道 的 关 
于 这 个 操作 的 所 有 东西 ， 并 且 返 回 -EIOCBQUEUED 给 调用 者 ， 记 住 操作 信息 包括 安排 对 用 
户 空间 缓冲 的 存 取 ; 一 旦 你 返回 ， 你 将 不 再 有 机 会 来 存 取 缓冲 ， 当 再 调用 进程 的 上 下 文 运 
行 时 ， 通 常 ， 那 意味 着 你 将 可 能 不 得 不 建立 一 个 直接 内 核 映 射 ( 使 用 get user pages ) 
或 者 一 个 DMA 映射 ， -EIOCBQUEUED 错误 码 指示 操作 还 没有 完成 ， 并 且 它 最 终 的 状态 将 之 
后 传递 . 












































当 ”“ 之 后 "到 来 时 ， 你 的 驱动 必须 通知 内 核 操作 已 经 完成 ， 那 通过 调用 aio complete 来 完成 : 

















int aio complete(struct kiocb *iocb, long res, long res2); 
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这 里 ，iocb 是 起 初 传递 给 你 的 同一 个 IOCB， 并 且 res 是 这 个 操作 的 通常 的 结果 状态 . 
res2 是 将 被 返回 给 用 户 空间 的 第 2 个 结果 名 大 部 分 的 异步 LO 实现 作为 0 传递 
res2. 一旦 你 调用 aio_complete， 你 不 应 当 再 磁 IO0CB ska HP ERR. 














15.3.1.1. 一 个 异步 VO 例子 








例子 代码 中 的 面向 页 的 scullp 驱动 实现 异步 I/0， 实 现 是 简单 的 ， 但 是 足够 来 展示 异步 
操作 应 当 如 何 被 构造 . 


aio read 和 aio write 方法 实际 上 不 做 太 多 : 





static ssize t scullp aio read(struct kiocb *iocb, char *buf, size t count, loff t pos) 


{ 


return scullp defer op(0, iocb, buf, count, pos); 


} 


static ssize t scullp aio write(struct kiocb *iocb, const char *buf, size t count, loff t 
pos) 


{ 


return scullp defer op(l, iocb, (char *) buf, count, pos); 


} 





这 些 方法 仅仅 调用 一 个 普通 的 函数 : 


struct async work 
{ 
struct kiocb *iocb; 
int result; 
struct work struct work; 


3 


static int scullp defer op(int write, struct kiocb *iocb, char *buf, size t count, loff t 
pos) 
{ 

struct async work *stuff; 

int result; 


/* Copy now while we can access the buffer */ 
if (write) 
result 


ll 


scullp write(iocb-^ki filp, buf, count, &pos); 
else 
result = scullp read(iocb-^ki filp, buf, count, &pos); 


/* If this is a synchronous IOCB, we return our status now. */ 
if (is sync kiocb(iocb)) 
return result; 


/* Otherwise defer the completion for a few milliseconds. */ 
stuff = kmalloc (sizeof Ckstuff), GFP KERNEL); 
if (stuff == NULL) 
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return result; /* No memory, just complete now */ 
Stuff->iocb = iocb; 
Stuff->result = result; 
INIT WORK(&stuff-^work, scullp do deferred op, stuff); 
schedule delayed work(&stuff-^work, HZ/100); 
return -EIOCBQUEUED; 
) 








一 个 更 加 完整 的 实现 应 当 使 用 get user pages 来 映射 用 户 缓冲 到 内 核 空 间 ， 我 们 选择 来 
使 生活 简单 些 ， 通 过 只 拷贝 在 outset 的 数据 ， 接 着 调用 is sync kiocb 来 看 是 否 这 个 
操作 必须 同步 完成 ; 如 果 是 ， 结 果 状 态 被 返回 ， 并 且 我 们 完成 了 ， 否则 我 们 记 住 相关 的 信 
县 在 一 个 小 结构 ， 通 过 一 个 工作 队列 来 为 ”完成 "而 安排 ， 并 且 返 回 -EIOCBQUEUED， 在 这 
点 上 ， 控 制 返回 到 用 户 空间 . 














之 后 ， 工 作 队 列 执行 我 们 的 完成 函数 : 


static void scullp do deferred op (void *p) 

{ 

struct async work *stuff = (struct async work *) p; 
aio complete(stuff-^iocb, stuff-^result, 0); 
kfree(stuff); 
} 








这 里 ， 只 是 用 我 们 保存 的 信息 调用 aio complete 的 事情 .一 个 真正 的 驱动 的 异步 1/0 
实现 是 有 些 复杂 ， 当 然 ， 但 是 它 遵循 这 类 结构 . 


15. 4， 直 接 内 存 存 取 


直接 内 存 存 取 ， 或 者 DMA， 是 结束 我 们 的 内 存 问题 概览 的 高 级 主题 ，DMA 是 便 件 机 制 允许 
外 设 组 件 来 直接 传输 它们 的 1/0 数据 到 和 从 主 内 存 ， 而 不 需要 包 合 系统 处 理 器 这 种 机 
制 的 使 用 能 够 很 大 提高 吞 叶 量 到 和 从 一 个 设备 ， 因 为 大 量 的 计算 开销 被 削减 了 . 


15.4.1. —^* DMA 数据 传输 的 概况 
在 介绍 程序 细节 之 前 ， 让 我 们 回顾 一 个 DMA 传输 如 何 发 生 的 ， 只 考虑 输入 传输 来 简化 讨 


ie. 
































数据 传输 可 由 2 种 方法 触发 :或 者 软件 请 求 数据 (通过 一 个 函数 例如 read) 或 者 硬件 异步 
推 数据 到 系统 . 





在 第 一 种 情况 ， 包 含 的 步骤 总 结 如 下 : 


。 L 当 一 个 进程 调用 read， 张 动 方法 分 配 一 个 DMA 绥 冲 并 引导 硬件 来 传输 它 的 数 
据 到 那个 缓冲 ， 这 个 进程 被 置 为 睡眠 . 

。 2. 硬件 写 数 据 到 这 个 DMA 缓冲 并 且 在 它 完 成 时 引发 一 个 中 断 . 

。 3 中断 处 理 获得 输入 数据 ， 确 认 中 断 ， 并 且 唤 醒 进 程 ， 它 现在 可 以 读数 据 了 . 
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第 2 种 情况 到 来 是 当 DMA 被 异步 使 用 ， 例 如 ， 这 发 生 在 数据 获取 设备 ， 它 在 没有 人 读 它 
们 的 时 候 也 持续 推 入 数据 ， 在 这 个 情况 下 ， 了 驱动 应 当 维 护 一 个 缓冲 以 至 于 后 续 的 读 调用 能 
返回 所 有 的 累积 的 数据 给 用 户 空 间 ， 这 类 传输 包含 的 步骤 有 点 不 同 : 














1， 和 硬件 引发 一 个 中 断 来 宣告 新 数据 已 经 到 达 . 

2， 中 断 处 理 分 配 一 个 缓冲 并 且 告知 硬件 在 哪里 传输 数据 . 
3. 外 设 写 数据 到 缓冲 并 且 引 发 另 一 个 中 断 当 完 成 时 . 

处 理 者 分 派 新 数据 ， 唤 醒 任 何 相关 的 进程 ， 并 且 负 责 杂 务 . 









































异步 方法 的 变 体 常 常 在 网 卡 中 见 到 ， 这 些 卡 常常 期 望 见 到 一 个 在 内 存 中 和 处 理 器 共享 的 环 
形 缓冲 (常常 被 称 为 一 个 DMA 的 缓冲 ) ; 每 个 到 来 的 报 文 被 放置 在 环 中 下 一 个 可 用 的 缓冲 ， 
并 且 发 出 一 个 中 断 ， 驱 动 接着 传递 网 络 本 文 到 内 核 其 他 部 分 并 且 在 环 中 放置 一 个 新 DMA 
Ze. 




















在 所 有 这 些 情况 中 的 处 理 的 步骤 都 强调 ， 有 效 的 DMA 处 理 依赖 中 断 报 告 ， 虽然 可 能 实现 
DMA 使 用 一 个 轮 询 驱 动 ， 它 不 可 能 有 意义 ， 因 为 一 个 轮 询 驱 动 可 能 浪 绩 DMA 提供 的 性 能 
益处 超过 更 容易 的 处 理 器 驱动 的 1/0.“ 















































在 这 里 介绍 的 另 一 个 相关 项 是 DMA 绥 冲 ，DMA 要 求 设备 驱动 来 分 配 一 个 或 多 个 特殊 的 适 
fr DMA 的 缓冲 ， 注 意 许 多 驱动 分 配 它们 的 缓冲 在 初始 化 时 并 且 使 用 它们 直到 关闭 一 在 
之 前 列表 中 的 分 配 一 词 ， 意 思 是 “获得 一 个 之 前 分 配 的 缓冲 


15. 4. 2. 分 配 DMA 缓冲 


本 节 涵 盖 DMA 缓冲 在 底层 的 分 配 ; 我 们 稍 后 介绍 一 个 高 级 接口 ， 但 是 来 理解 这 里 展示 的 
内 容 仍 是 一 个 好 主意 . 





















































随 DMA 缓冲 带 来 的 主要 问题 是 ， 当 它们 大 于 一 页 ， 它 们 必须 占据 物理 内 存 的 连续 页 因为 
设备 使 用 ISA 或 者 PCI 系统 总 线 传输 数据 ， 它 们 都 使 用 物理 地 址 .注意 有 趣 的 是 这 个 限 
制 不 适用 SBus ( JL 12 3EB"SBus  — B )， 它 在 外 设 总 线 上 使 用 虚拟 地 址 ， 一 些 体系 结 
构 还 可 以 在 PCI 总 线 上 使 用 虚拟 地 址 ， 但 是 一 个 可 移植 的 驱动 不 能 依赖 这 个 功能 . 
























































尽管 DMA 缓冲 可 被 分 配 或 者 在 系统 启动 时 或 者 在 运行 时 ， 模 块 只 可 在 运行 时 分 配 它们 的 
p. GB 8 间 介 绍 这 些 技术 ;“ 获 取 大 缓冲 “一 市 涵盖 在 系统 局 动 时 分 配 ， 而 “kmalloc 
的 真实 ”和 “get_free_page 和 其 友 “ 描述 在 运行 时 分 配 )， 张 动 编写 者 必须 关心 分 配 正确 的 
内 存 , 当 它 被 用 做 DMA 操作 时 ; 不 是 所 有 内 存 区 是 合适 的 ， 特 别 的 ， 在 一 些 系 统 中 的 一 些 
设备 上 高 端 内 存 可 能 不 为 DMA 工作 - 外 设 完全 无 法 使 用 高 端 地 址 . 



















































































在 现代 总 线 上 的 大 部 分 设备 可 以 处 理 32- 位 地 址 ， 意 思 是 正常 的 内 存 分 配对 它们 是 刚刚 
好 的 . 一 些 PCI 设备， 但是， 不 能 实现 完整 的 PCI 标准 并 且 不 能 使 用 32- 位 地 址 ， 并 
H. ISA 设备 ， 当 然 ， 限 制 只 在 24- 位 地 址 . 

















对 于 有 这 种 限制 的 设备 ， 内 存 应 当 从 DMA 区 进行 分 配 ， 通 过 添加 GFP_DMA 标志 到 
kmalloc 或 者 get_free pages 调用 ， 当 这 个 标志 存在 ， 只 有 可 用 24- 位 寻 址 的 内 存 被 
分 配 ， 另 一 种 选择 ， 你 可 以 使 用 通用 的 DMA 层 ( 我 们 马上 讨论 这 个 ) 来 分 配 缓冲 以 解决 
你 的 设备 的 限制 . 
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15.4.2.1. 自己 做 分 配 














我 们 已 见 到 get free pages 如 何 分 配 直 到 儿 个 MByte (由 于 order 可 以 直到 
MAX_ORDER， 当 前 是 11)， 但 是 高 级 数 的 请 求 容 易 失 败 当 请 求 的 缓冲 远 远 小 于 128 KB, 
为 系统 内 存 时 间 长 了 变 得 碎 裂 . 7 














当 内 核 无 法 返回 请 求 数量 的 内 存 或 者 当 你 需要 多 于 128 KB( 例 如 ， 一 个 通常 的 PCI "im 
取 的 请 求 )， 一 个 替代 返回 -ENOMEM 的 做 法 是 在 启动 时 分 配 内 存 或 者 保留 物理 RAM 的 项 
部 给 你 的 缓冲 ， 我 们 在 第 8 章 的 “获得 大 量 缓冲 ”一 节 描 述 在 启动 时 间 分 配 ， 但 是 它 对 
模块 是 不 可 用 的 ， 保留 RAM 的 顶部 是 通过 在 启动 时 传递 一 个 mem= 参数 给 内 核实 现 的 . 
例如 ， 如 果 你 有 256 MB, Z3 mem-255M 使 内 核 不 使 用 顶部 的 MByte， 你 的 模块 可 能 后 
来 使 用 下 列 代码 来 获得 对 这 个 内 存 的 存 取 : 





















































dmabuf = ioremap (OxFF00000 /* 255M */, 0x100000 / 1M */); 

















配器 ， 配 合 本 书 的 例子 代码 的 一 部 分 ， 提 供 了 一 个 简单 的 API 来 探测 和 管理 这 样 的 保 
RAM 并 且 已 在 几 个 体系 上 被 成 功 使 用 ， 但 是 ， 这 个 技巧 当 你 有 一 个 高 内 存 系统 时 无 效 
( 即 ， 一 个 有 比 适合 CPU 地 址 空间 更 多 的 物理 内 存 的 系统 ). 
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当然 ， 另 一 个 选项 ， 是 使 用 GPP NOPAIL 来 分 配 你 的 缓冲 ， 这 个 方法 ， 但 是 ， 确 实 严重 地 
对 内 存 管理 子 系统 有 压力 ， 并 且 它 冒 锁 住 系统 的 风险 ; 最 好 是 避免 除非 确实 没有 其 他 方法 . 















































如 果 你 分 配 一 个 大 DMA 缓冲 到 这 样 的 长 度 ， 但 是 ， 值 得 想 一 下 蔡 代 的 方法 ， 如果 你 的 设 
备 可 以 做 发 散 /汇聚 I[/0， 你 可 以 分 配 你 的 缓冲 以 更 小 的 片段 并 且 让 设备 做 其 他 的 . 发散/ 
汇聚 1/0 也 可 以 用 当 进 行 直 接 I/0 到 用 户 空间 时 ， 它 可 能 是 最 好 地 解决 方法 当 需 要 一 个 
真正 大 缓冲 时 . 


15. 4. 3， 总 线 地 址 


一 个 使 用 DMA 的 设备 驱动 必须 和 连接 到 接口 总 线 的 便 件 通讯 ， 总 线 使 用 物理 地 址 ， 而 程 
序 代码 使 用 虚拟 地 址 . 












































事实 上 ， 人 情况 比 这 个 稍微 有 些 复杂 . 基于 DMA 的 硬件 使 用 总 线 地 址 ， 而 不 是 物理 地 址 ， 尽 
管 ISA 和 PCI 总 线 地 址 在 PC 上 完全 是 物理 地 址 ， 这 对 每 个 平台 却 不 总 是 真 的 ， 有 时 接 
口 总 线 被 通过 桥接 电路 连接 ， 它 映射 I/0 地 址 到 不 同 的 物理 地 址 ， 一 些 系统 其 至 有 一 个 
页 映射 机 制 ， 使 任意 的 页 连续 出 现在 外 设 总 线 . 



































在 最 低级 别 ( 再 次 ， 我 们 将 马上 查看 一 个 高 级 解决 方法 )，Linux 内 核 提 供 一 个 可 移植 的 方 
法 ， 通 过 输出 下 列 函数 ， 在 《asm/io.h> 定义 ， 这 些 函 数 的 使 用 不 被 推荐 ， 因 为 它们 只 在 
有 非常 简单 的 L/O 体系 的 系统 上 正常 工作 ; 但 是 ， 你 可 能 遇 到 它们 当 使 用 内 核 代 码 时 . 












































unsigned long virt to bus(volatile void *address); 
void *bus to virt(unsigned long address); 


这 些 函数 进行 一 个 简单 的 转换 在 内 核 逻辑 地 址 和 总 线 地 址 之 间 . 它们 在 许多 情况 下 不 工作 ， 
一 个 1/0 内 存 管理 单元 必须 被 编程 的 地 方 或 者 必须 使 用 反弹 缓冲 的 地 方 ， 做 这 个 转换 的 
正确 方法 是 使 用 通用 的 DMA 层 ， 因 此 我 们 现在 转移 到 这 个 主题 . 
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15.4. 4. WH DM E 


DMA 操作 ， 最 后 ， 下 到 分 配 一 个 缓冲 并 且 传 递 总 线 地 址 到 你 的 设备 ， 但 是 ， 编 写 在 所 有 体 
系 上 安全 并 正确 进行 DMA 的 可 移植 启动 的 任务 比 想象 的 要 难 . 不 同 的 系统 有 不 同 的 概念 ， 
关于 缓存 一 致 性 应 当 如 何 工作 的 概念 ; 如 果 你 不 正确 处 理 这 个 问题 ， 你 的 驱动 可 能 破坏 内 
存 ， 一 些 系统 有 复杂 的 总 线 硬件 ， 它 使 DMA 任务 更 容易 - 或 者 更 难 . 并 且 不 是 所 有 的 系 
统 可 以 在 内 存 所 有 部 分 进行 DMA， 幸 运 的 是 ， 内 核 提 供 了 一 个 总 线 和 体系 独立 的 DMA 层 
来 对 驱动 作者 隐藏 大 部 分 这 些 问题 ， 我 们 非常 鼓励 你 来 使 用 这 个 层 来 DMA 操作 ， 在 任何 
你 编写 的 驱动 中 . 
























































下 面 的 许多 函数 需要 一 个 指向 struct device 的 指针 .这 个 结构 是 Linux 设备 模型 中 设 
备 的 低级 表示 .， 它 不 是 驱动 常常 必须 直接 使 用 的 东西 ， 但 是 你 确实 需要 它 当 使 用 通用 DMA 
层 时 ， 常 常 地 ， 你 可 发 现 这 个 结构 ， 深 埋 在 描述 你 的 设备 的 总 线 ， 例 如 ， 它 可 在 struct 
pci device 或 者 struct usb device 中 发 现 它 作为 dev pt. 设备 结构 在 14 章 中 详 



























































使 用 下 面 逊 数 的 驱动 应 当 包 含 《linux/dma-mapping. h>. 
15.4.4.1. 处 理 困 难 硬件 





在 尝试 DMA 之 前 必须 回答 的 第 一 个 问题 是 给 定 设备 是 否 能 够 在 当前 主机 上 做 这 样 的 操作 . 
许多 设备 受 限 于 它们 能 够 寻 址 的 内 存 范 围 ， 因 为 许多 理由 ， 缺 省 地 ， 内 核 假 定 你 的 设备 能 
够 对 任何 32- 位 地 址 进行 DMA， 如 果 不 是 这 样 ， 你 应 当 通 知 内 核 这 个 事实 ， 使 用 一 个 调 
用 : 











int dma set mask(struct device *dev, u64 mask); 





mask 应 当 显示 你 的 设备 能 够 寻 址 的 位 ; 如 果 它 被 限制 到 24 位 ， 例 如 ， 你 要 传递 mask 
作为 OxOFFFFFF. 返回 值 是 非 零 如 果 使 用 给 定 的 mask 可 以 DMA; 如 果 dma set mask 返 
回 0， 你 不 能 对 这 个 设备 使 用 DMA 操作 . 因此， 设备 的 驱动 中 的 初始 化 代码 限制 到 24- 
位 DMA 操作 可 能 看 来 如 : 











if (dma set mask (dev, Oxffffff)) 
card->use dma = 1; 

else 

{ 
card->use dma = 0; /* We'll have to live without DMA */ 
printk (KERN WARN, “mydev: DMA not supported\n’”) ; 

} 





再 次 ， 如 果 你 的 设备 支持 正常 的 ，32- 位 DMA 操作 ， 没 有 必要 调用 dma set mask. 





15.4.4.2. DMA 映射 











一 个 DMA 映射 是 分 配 一 个 DMA 缓冲 和 产生 一 个 设备 可 以 存 取 的 地 址 的 结合 ， 它 试图 使 用 
一 个 简单 的 对 virt to bus 的 调用 来 获得 这 个 地 址 ， 但 是 有 充分 的 理由 来 避免 那个 方法 . 
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它们 中 的 第 一 个 是 合理 的 硬件 带 有 一 个 IOMMU 来 为 总 线 提供 一 套 映射 寄存 器 . IOMMU 可 
为 任何 物理 内 存 安排 来 出 现在 设备 可 存 取 的 地 址 范围 内 ， 并 且 它 可 使 物理 上 散布 的 缓冲 对 
设备 看 来 是 连续 的 .使 用 IOMMU 需要 使 用 通用 的 DMA Ei; virt to bus 不 负责 这 个 任务 . 





























注意 不 是 所 有 的 体系 都 有 一 个 IOMMU; 特别 的 ， 流 行 的 x86 平台 没有 IOMMU 支持 .一 个 
正确 编写 的 驱动 不 需要 知道 它 在 之 上 运行 的 1/0 支持 人 硬件， 但 是 . 
































为 设备 设置 一 个 有 用 的 地 址 可 能 也 ， 在 茶 些 情况 下 ， 要 求 一 个 反弹 绥 冲 的 建立 ， 有 反弹 绥 冲 
是 当 一 个 驱动 试图 在 一 个 外 设 不 能 达到 的 地 址 上 进行 DMA 时 创建 的 ， 比 如 一 个 高 内 存 地 
址 .数据 接着 根据 需要 被 找 贝 到 和 从 反弹 缓冲 .无 需 说 ， 反 弹 缓冲 的 使 用 能 拖 慢 事情 ， 但 
是 有 时 没有 其 他 选择 . 











DMA 映射 也 必须 解决 缓存 一 致 性 问题 记 住 现 代 处 理 器 保持 最 近 存 取 的 内 存 区 的 拷贝 在 一 
个 快速 的 本 地 缓冲 中 ; 如 果 没 有 这 个 缓存 ， 合 理 的 性 外 ERI. 如果 你 的 设备 改变 主 
存 一 个 区 ， 会 强制 使 任何 包含 那个 区 的 处 理 器 缓存 被 失效 ; 负责 处 理 器 可 能 使 用 不 正确 的 
P a 任 
何 对 那个 驻 留 在 处 理 器 缓存 的 内 存 的 改变 必须 首先 被 刷新 ， 这 些 缓存 一 致 性 问题 可 以 产生 
无 头 的 模糊 和 难 寻 的 错误 ， 如 果 编 程 者 不 小 心 .一 个 体系 在 硬件 中 管理 缓存 一 致 性 ， 但 是 
其 他 的 要 求 软件 支持 .通用 的 DMA 层 深入 很 多 来 保证 在 所 有 体系 上 事情 都 正确 工作 ， 但 
是 ， 如 同 我 们 将 见 到 的 ， 正 确 的 行为 要 求 符合 一 些 规则 . 






















































































DMA 映射 设置 一 个 新 类 型 ，dma addr t， 来 代表 总 线 地 址 ， 类 型 dma addr t 的 变量 应 当 
被 驱动 当 作 不 透明 的 ; 唯一 可 允许 的 操作 是 传递 它们 到 DMA 支持 过 程 和 设备 自身 .作为 
一 个 总 线 地 址 ，dma_addr t 可 导致 不 期 望 的 问题 如 果 被 CPU 直接 使 用 . 











PCI 代码 在 2 类 DMA 映射 中 明显 不 同 ， 依 赖 DMA 缓冲 被 期 望 停留 多 长 时 间 : 
Coherent DMA mappings 


连贯 的 DMA 上 映射， 这些 映射 常常 在 驱动 的 生命 期 内 存在 .一 个 连贯 的 绥 冲 必须 是 同时 对 
CPU 和 外 设 可 用 (其 他 的 映射 类 型 ， 如 同 我 们 之 后 将 看 到 的 ， 在 任何 给 定时 间 只 对 一 个 或 
男 一 个 可 用 ). 结果 ， 一 致 的 映射 必须 在 缓冲 一 致 的 内 存 ， 一 至 的 映射 建立 和 使 用 可 能 是 
昂贵 的 . 




















Streaming DMA mappings 








流 DMA 映射 ， 流 映射 常常 为 一 个 单个 操作 建立 ， 一 些 体系 当 使 用 流 映 射 时 允许 大 的 优化 ， 
如 我 们 所 见 ， 但 是 这 些 映射 也 服从 一 个 更 严格 的 关于 如 何 存 取 它 们 的 规则 ， 内 核 开发 者 建 
议 使 用 一 致 映射 而 不 是 流 映射 在 任何 可 能 的 时 候 . 这 个 建议 有 2 个 原因 ， 第 一 个 ， 在 文 
持 映 射 寄存 器 的 系统 上 ， 每 个 DMA 英 射 在 总 线 上 使 用 它们 一 个 或 多 个 .一 致 映 映 ， 有 长 
的 生命 周期 ， 可 以 长 时 间 独 占 这 些 寄存 器 ， 甚 至 当 它 们 不 在 使 用 时 .为 外 一 个 原因 是 ， 在 
某 些 硬件 上 ， 流 映射 可 以 用 无 法 在 一 致 映射 中 使 用 的 方法 来 优化 . 






































这 2 种 映射 类 型 必须 以 不 同 的 方式 操作 ; 是 时 候 看 看 细节 了 . 
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15.4.4.3. 建立 一 致 DMA 映射 








一 个 驱动 可 以 建立 一 个 一 致 映射 ， 使 用 对 dma alloc coherent 的 调用 : 


void *dma alloc coherent(struct device *dev, size t size, dma addr t 
*dma handle, int flag); 

















这 个 函数 处 理 缓冲 的 分 配 和 了 映射， 前 2 个 参数 是 设备 结果 和 需要 的 缓冲 大 小 .这 个 函数 

返回 DMA 映射 的 结果 在 2 个 地 方 . 来 自 这 个 函数 的 返回 值 是 缓冲 的 一 个 内 核 虚拟 地 址 ， 

它 可 被 驱动 使 用 ; 其 间 相 关 的 总 线 地 址 在 dma handle 中 返回 ， 分 配 在 这 个 函数 中 被 处 理 
以 至 缓冲 被 放置 在 一 个 可 以 使 用 DMA 的 位 置 ; 常常 地 内 存 只 是 使 用 get free pages 来 
分 配 (但 是 注意 大 小 是 以 字 节 计 的 ， 而 不 是 一 个 order 1). flag 参数 是 通常 的 GFP fü 
来 描述 内 存 如 何 被 分 配 ; 常常 应 当 是 GFP KERNEL (常常 ) 或 者 GFP ATOMIC ( 当 在 原子 上 
下 文中 运行 时 ). 










































































当 不 再 需要 缓冲 (种 常 在 模块 外 载 时 )， 它 应 当 被 返回 给 系统 ， 使 用 dma free coherent: 


void dma free coherent (struct device *dev, size t size, 
void *vaddr, dma addr t dma handle); 

















注意 ， 这 个 函数 象 许 多 通常 的 DMA 函数 ， 需 要 提供 所 有 的 大 小 ，CPU 地 址 ， 和 总 线 地 址 
参数 . 








15.4.4.4. DMA 池 


一 个 DMA 池 是 分 配 小 的 ， 一 致 DMA 映射 的 分 配 机 制 ， 从 dma alloc coherent 获得 的 映 
射 可 能 有 一 页 的 最 小 大 小 ， 如 果 你 的 驱动 需要 比 那 个 更 小 的 DMA 区 域 ， 你 应 当 可 能 使 用 
一 个 DMA 池 . DMA 池 也 在 这 种 情况 下 有 用 ， 当 你 可 能 试图 对 骸 在 一 个 大 结构 中 的 小 区 域 
进行 DMA 操作 .一 些 非 常 模 糊 的 驱动 错误 已 被 追踪 到 绥 存 一 任性 问题 ， 在 靠近 小 DMA 区 
域 的 结构 成 员 ， 为 避免 这 个 问题 ， 你 应 当 一 直 明 确 分 配 进行 DMA 操作 的 区 域 ， 和 其 他 的 
非 DMA 数据 结构 分 开 . 
































DMA 池 函 数 定 义 在 《Linux/dmnapool1. h>. 











一 个 DMA 池 必 须 在 使 用 前 创建 ， 使 用 一 个 调用 : 


struct dma pool *dma pool create (const char *name, struct device *dev, 
size t size, size t align, 
size t allocation); 




















XE, name 是 池 的 名 子 ，dev 是 你 的 设备 结构 ，size 是 要 从 这 个 池 分 配 的 缓冲 区 大 小 ， 
align 是 来 自 池 的 分 配 要 求 的 硬件 对 齐 ( 以 字 节 表达 的 )， 以 及 allocation 是 ， 如 果 非 零 ， 
一 个 分 配 不 应 当 越 过 的 内 存 边 界 . 如 果 allocation 以 4096 传递 ， 例 如 ， 从 池 分 配 的 组 
冲 不 越过 4-KB 边界 . 





当 你 用 完 一 个 池 ， 可 被 释放 ， 用 : 
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void dma pool destroy(struct dma pool **pool); 


你 应 当 返 回 所 有 的 分 配给 池 ， 在 销毁 它 之 前 ， 分配 被 用 dma pool alloc 处 理 : 








void *dma pool alloc(struct dma pool *pool, int mem flags, dma addr t *handle); 





对 这 个 调用 ，mem_flags 是 常用 的 GFP. 分 配 标志 的 设置 . 如 果 所 有 都 进行 顺利 ， 一 个 内 
存 区 (大 小 是 当 池 创建 时 指定 的 ) 被 分 配 和 返回 .至 于 dam alloc_coherent， 结 果 DMA 组 
冲 地 址 被 返回 作为 一 个 内 核 虚 拟 地 址 ， 并 作为 一 个 总 线 地 址 被 存 于 handle. 


























不 需要 的 缓冲 应 当 返 回 池 ， 使 用 : 
void dma pool free(struct dma pool *pool, void *vaddr, dma addr t addr); 


15.4.4.5. 建立 流 DMA 映射 





流 映 射 比 一 致 映射 有 更 复杂 的 接口 ， 有 几 个 原因 ， 这 些 映 射 行 为 使 用 一 个 由 驱动 已 经 分 配 
的 缓冲 ， 因 此 ， 必 须 处 理 它们 没有 选择 的 地 址 ， 在 一 些 体系 上 ， 流 映射 也 可 以 有 多 个 不 连 
续 的 页 和 多 部 分 的 发散/ 汇聚 “ 绥 冲 .所 有 这 些 原因 ， 流 映射 有 它们 自己 的 一 套 映 射 函 数 . 











当 建 立 一 个 流 映 射 时 ， 你 必须 告知 内 核 数据 移 向 哪个 方向 ， 一 些 符号 (enum 
dam data direction 类 型 ) 已 为 此 定义 : 


DMA_TO_DEVICE 
DMA FROM DEVICE 


这 2 个 符号 应 当 是 自 解释 的 . 如果 数据 被 发 向 这 个 设备 (相应 地 ， 也 许 ， 到 一 个 
write 系统 调用 )，DMA_I0_DEVICE 应 当 被 使 用 ; 去 向 CPU 的 数据 ， 相 反 ， 用 
DMA FROM DEVICE 标志 . 








DMA BIDIRECTIONAL 








如 果 数 据 被 在 任 一 方向 移动 ， 使 用 DMA BIDIRECTIONAL. 


DMA NONE 











这 个 符号 只 作为 一 个 调试 辅助 而 提供 .试图 使 用 带 这 个 方向 的 缓冲 导致 内 核 朋 湿 . 








可 能 在 所 有 时间 里 试图 只 使 用 DMA_BIDIRECTIONAL， 但 是 驱动 作者 应 当 抵 挡住 这 个 诱惑 . 
在 一 些 体 系 上 ， 这 个 选择 会 有 性 能 损失 . 








当 你 有 单个 缓冲 要 发 送 ， 使 用 dma map single 来 映射 它 : 


dma addr t dma map single(struct device *dev, void *buffer, size t size, enum 
dma data direction direction); 





返回 值 是 总 线 地 址 ， 你 可 以 传递 到 设备 ， 或 者 是 NULL 如 果 有 错误 . 


385 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSE[] [] O O 0O IO [] O Linux[] HD] E] LU [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 


一 旦 传输 完成 ， 映 射 应 当 用 dma unmap single 来 删除 : 


void dma unmap single(struct device *dev, dma addr t dma addr, size t size, 





enum dma data direction direction); 


XE, size 和 direction 参数 必须 匹配 那些 用 来 映射 缓冲 的 . 





一 些 重 要 的 规则 适用 于 流 DMA 映射 : 


。 绥 冲 必须 用 在 只 匹配 它 被 映射 时 给 定 的 方向 的 传输 . 
。 一 旦 一 个 缓冲 已 被 映射 ， 它 属于 这 个 设备 ， 不 是 处 理 器 ， 直到 这 个 缓冲 已 被 去 映射 ， 
驱动 不 应 当 以 任何 方式 触动 它 的 内 容 ， 只 在 调用 dma unmap single 后 驱动 才 可 安 
全 存 取 缓冲 的 内 容 ( 有 一 个 例外 ， 我 们 马上 见 到 ). 其 他 的 事情 ， 这 个 规则 隐 含 一 个 

在 被 号 入 设备 的 缓冲 不 能 被 映射 ， 直 到 它 包 含 所 有 的 要 写 的 数据 . 
。 这 个 缓冲 必须 不 被 映射 ， 当 DMA 仍然 激活 ， 和 否则 肯定 会 有 严重 的 系统 不 稳定 . 























你 可 能 奇怪 为 什么 一 旦 一 个 缓冲 已 被 映射 驱动 就 不 能 再 使 用 它 ， 为 什么 这 个 规则 有 意义 实 
ES Rs don c uma cd 
据 实际 上 已 被 写 入 内 存 ， 有 可 能 一 些 数据 在 处 理 器 的 缓存 当 dma unmap single 被 调用 时 ， 
并 且 必 须 被 明确 刷新 ， 被 处 理 器 在 刷新 后 写 入 缓冲 的 数据 可 能 对 设备 不 可 见 . 
























































第 二 ， 考 虑 一 下 会 发 生 什 么 ， 当 被 映射 的 缓冲 在 一 个 对 设备 不 可 存 取 的 内 存 区 ， 一些 体系 
在 这 种 情况 下 完全 失败 ， 但 是 其 他 的 创建 一 个 反弹 缓冲 . 反弹 缓冲 只 是 一 个 分 开 的 内 存 区 
它 对 设备 可 存 取 ， 如 果 一 个 缓冲 被 映射 使 用 DMA TO DEVICE 方向 ， 并 且 要 求 一 个 反弹 组 
冲 ， 原 始 缓冲 的 内 容 作为 映射 操作 的 一 部 分 被 拷贝 ， 明 显 地 ， 在 拷贝 后 的 对 原始 缓冲 的 改 
变 设 备 见 不 到 ， 类 似 地 ，DMA_FROM DEVICE 反弹 缓冲 被 dma unmap single 拷 回 到 原始 绥 
DP; 来 自 设备 的 数据 直到 拷贝 完成 才 出 现 . 


























偶然 地 ， 为 什么 获得 正确 方向 是 重要 的 ， 反弹 缓冲 是 一 个 原因 . DMA BIDIRECTIONAL 反弹 
缓冲 在 操作 前 后 被 拷贝 ， 这 常常 是 一 个 CPU 周期 的 不 必要 浪费 . 























偶尔 一 个 驱动 需要 存 取 一 个 流 DMA 缓冲 的 内 容 而 不 映射 它 ， 已 提供 了 一 个 调用 来 做 这 个 : 





void dma sync single for cpu(struct device *dev, dma handle t bus addr, size t 
size, enum dma data direction direction); 





这 个 函数 应 当 在 处 理 器 存 取 一 个 流 DMA 缓冲 前 调用 .一 旦 已 做 了 这 个 调用 ，CPU“ 拥 有 ” 
DMA 绥 冲 并 且 可 以 按 需 使 用 它 ， 在 设备 存 取 这 个 绥 冲 前 ， 但 是 ， 拥 有 权 应 当 传 递 回 给 它 ， 
使 用 : 




















void dma sync single for device(struct device *dev, dma handle t bus addr, 
size t size, enum dma data direction direction); 





处 理 器 ， 再 一 次 ， 在 调用 这 个 之 后 不 应 当 存 取 DMA 缓冲 . 
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15.4.4.6. 单 页 流 映 射 





偶然 地 ， 你 可 能 想 建 立 一 个 缓冲 的 映射 ， 这 个 缓冲 你 有 一 个 struct page 指针 ; 例如 ， 
这 可 能 发 生 在 使 用 get user pages 映射 用 户 缓冲 .为 建立 和 取消 流 映 射 使 用 struct 
page 指针 ， 使 用 下 面 : 














dma addr t dma map page(struct device *dev, struct page *page, 
unsigned long offset, size t size, 

enum dma data direction direction); 

void dma unmap page(struct device *dev, dma addr t dma address, 
size t size, enum dma data direction direction); 








offset 和 size 参数 可 被 用 来 映射 页 的 部 分 ， 但是， 建议 部 分 页 映射 应 当 避 免 ， 除 非 你 
真正 确信 你 在 做 什么 ， 映 射 一 页 的 部 分 可 能 时 致 缓存 一 致 性 问题 ， 如 果 这 个 分 配 只 才 盖 一 
个 缓存 线 的 一 部 分 ; 这 ， 随 之 ， 会 导致 内 存 破坏 和 严重 的 难以 调试 的 错误 . 


15.4.4.7. 发 散 /汇聚 映射 






































发 散 /汇聚 映射 是 一 个 特殊 类 型 的 流 DMA 映射 .假设 你 有 几 个 缓冲 ， 都 需要 传送 数据 到 或 
者 从 设备 . 这 个 情况 可 来 自 几 个 方式 ， 包 括 从 一 个 readv 或 者 writev 系统 调用 ， 一 个 
成 复 的 磁盘 L/O 请 求 ， 或 者 一 个 页 链表 在 一 个 被 映射 的 内 核 I/0 缓冲 ， 你 可 简单 地 映射 
每 个 缓冲 ， 轮 流 的 ， 并 且 进 行 要 求 的 操作 ， 但 是 有 几 个 优点 来 一 次 映射 整个 链表 . 











许多 设备 可 以 接收 一 个 散布 表 数 组 指针 和 长 度 ， 并 且 传 送 它们 全 部 在 一 个 DMA 操作 中 ; 
例如 ,“ 零 拷贝 "网络 是 更 轻松 如 果 报 文 在 多 个 片 中 建立 ， 另 一 个 映射 发 散 列 表 为 一 个 整体 
的 理由 是 利用 在 总 线 便 件 上 有 了 映射 寄存 器 的 系统 .在 这 样 的 系统 上 ， 物 理 上 不 连续 的 页 从 
设备 的 观点 看 可 被 汇集 为 一 个 单个 的 ， 连 续 的 数组 .这 个 技术 只 当 散 布 表 中 的 项 在 长 度 上 
等 于 页 大 小 (除了 第 一 个 和 最 后 一 个 ) ， 但 是 当 它 做 这 个 工作 时 ， 它 可 转换 多 个 操作 到 一 个 
单个 的 DMA， 和 有 针对 性 的 加 速 事情 . 























最 后 ， 如 果 一 个 反弹 缓冲 必须 被 使 用 ， 应 该 连接 整个 列表 为 一 个 单个 缓冲 (因为 它 在 被 以 
EMAA N). 














因此 现在 你 确信 和 散布 表 的 映射 在 某 些 情况 下 是 值得 的 .映射 一 个 散布 表 的 第 一 步 是 创建 和 
填充 一 个 struct scatterlist 数组 ， 它 描述 被 传输 的 缓冲 ， 这 个 结构 是 体系 依赖 的 ， 并 
日 在 Xasm/scatterlist.h? 中 描述 .但 是 ， 它 常常 包含 3 个 成 员 : 


























struct page *page; 





struct page 指针 ， 对 应 在 发 散 /汇聚 操作 中 使 用 的 缓冲 . 


unsigned int length; 
unsigned int offset; 


RIR KEME AR A m. 
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为 映射 一 个 发 散 /汇聚 DMA 操作 ， 你 的 驱动 应 当 设 置 page, offset, 4H length 成 员 在 
一 个 struct scatterlist 项 给 每 个 要 被 发 送 的 缓冲 .接着 调用 : 








int dma map sg(struct device *dev, struct scatterlist *sg, int nents, enum 
dma data direction direction) 








这 里 nents 是 传 入 的 散布 表 项 的 数目 ， 返 回 值 是 要 发 送 的 DMA 缓冲 的 数目 ， 它 可 能 小 于 


nents. 


对 于 输入 散布 表 中 的 每 个 缓冲 ，dma_map_sg 决定 了 正确 的 给 设备 的 总 线 地 址 ， 作 为 任务 
的 一 部 分 ， 它 也 连接 在 内 存 中 相近 的 缓冲 ， 如 果 你 的 驱动 运行 的 系统 有 一 个 10 内 存 管 
理 单元 ，dma_map_sg 也 编程 这 个 单元 的 映射 寄存 器 ， 可 能 的 结果 是 ， 从 你 的 驱动 的 观点 ， 
你 能 够 传输 一 个 单个 的 ， 连 续 的 缓冲 ， 你 将 不 会 知道 传送 的 结果 将 看 来 如 何 ， 但 是 ， 直 到 
在 调用 之 后 . 

















你 的 驱动 应 当 传送 由 pci map sg 返回 的 每 个 缓冲 ， 总 线 地 址 和 每 个 缓冲 的 长 度 存 储 于 
struct scatterlist 项 ， 但 是 它们 在 结构 中 的 位 置 每 个 体系 不 同 ，2 个 宏 定 义 已 被 定义 
来 使 得 可 能 编写 可 移植 的 代码 : 









































dma addr t sg dma address (struct scatterlist **sg); 








从 这 个 散布 表 入 口 返 回 总 线 ( DMA ) 地 址 . 
unsigned int sg dma len(struct scatterlist *sg); 


返回 这 个 缓冲 的 长 度 . 





再 次 ， 记 住 要 传送 的 缓冲 的 地 址 和 长 度 可 能 和 传递 给 dma map sg 的 不 同 . 





一 旦 传送 完成 ， 一 个 发 散 / 汇 聚 映射 被 使 用 dma unmap sg 去 映射 : 


void dma unmap sg(struct device *dev, struct scatterlist *list, int nents, 
enum dma data direction direction); 





注意 nents 必须 是 你 起 初 传递 给 dma map sg 的 入 口 项 的 数目 ， 并 且 不 是 这 个 函数 返回 
给 你 的 DMA 缓冲 的 数目 . 





发 散 /汇聚 映射 是 流 DMA 映射 ， 并 且 同 样 的 存 取 规则 如 同 单一 映射 一 样 适用 ， 如 果 你 必须 
存 取 一 个 被 映射 的 发 散 /汇聚 列表 ， 你 必须 首先 同步 它 : 


void dma sync sg for cpu(struct device *dev, struct scatterlist *sg, 





int nents, enum dma data direction direction); 
void dma sync sg for device(struct device *dev, struct scatterlist *sg, 





int nents, enum dma data direction direction); 
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15.4.4.8. PCI 双 地 址 周期 映射 








常 地 ，DMA 支持 层 使 用 32- 位 总 线 地 址 ， 可 能 受 限 于 一 个 特定 设备 的 DMA 掩 码 .PCI 
总 线 ， 但 是 ， 也 支持 一 个 64- 位 地 址 模式 ， 双 地 址 周期 (DAC). 通常 的 DMA 层 不 支持 这 个 
模式 ， 因 为 几 个 理由 ， 第 一 个 是 它 是 一 个 PCI- 特 定 的 特性 还 有 ， 许 多 DAC 的 实现 满 
是 错误 ， 并 且 ， 因 为 DAC 慢 于 一 个 常规 的 ，32- 位 DMA， 可 能 有 一 个 性 能 开销 . 即便 如 此 ， 
有 的 应 用 程序 使 用 DAC 是 正确 的 事情 ; 如 果 你 有 一 个 设备 可 能 使 用 非常 大 的 位 于 高 内 存 
的 缓冲 ， 你 可 能 要 考虑 实现 DAC 支持 .这 个 支持 只 对 PCI 总 线 适用 ， 因 此 PCI- 特 定 的 
函数 必须 被 使 用 . 












































为 使 用 DAC， 你 的 驱动 必须 包含 《linux/pci.h>， 你 必须 设置 一 个 单独 的 DMA TERS: 


int pci dac set dma mask(struct pci dev *pdev, u64 mask); 








你 可 使 用 DAC 寻 址 只 在 这 个 调用 返回 0 时 ， 一 个 特殊 的 类 型 (dma64 addr t) 被 用 作 
DAC 映射 ,为 建立 一 个 这 些 映 射 ， 调 用 pci dac page to dma: 








dma64 addr t pci dac page to dma(struct pci dev *pdev, struct page *page, 





unsigned long offset, int direction); 








DAC 映射 ， 你 将 注意 到 ， 可 能 被 完成 只 从 struct page 指针 (它们 应 当 位 于 高 内 存 ， 毕 竟 ， 
否则 使 用 它们 没有 意义 了 ) ; 它们 必须 一 次 一 页 地 被 创建 . direction 参数 是 在 通用 DMA 
层 中 使 用 的 enum dma data direction 的 PCI 对 等 体 ; 它 应 当 是 PCI DMA TODEVICE, 
PCI_DMA_FROMDEVICE， 或 者 PCI DMA BIRDIRECTIONAL. 





























DAC 映射 不 要 求 外 部 资源 ， 因 此 在 使 用 后 没有 必要 明确 释放 它们 . 但是， 有 必要 象 对 待 其 
他 流 映 射 一 样 对待 DAC 上 映射， 并且 遵守 关于 缓冲 所 有 权 的 规则 ， 有 一 套 函 数 来 同步 DMA 
缓冲 ， 和 通常 的 变 体 相 似 : 























void pci dac dma sync single for cpu(struct pci dev *pdev, 
dma64 addr t dma addr, 
size t len, 
int direction); 





void pci dac dma sync single for device(struct pci dev *pdev, 
dma64 addr t dma addr, 
size t len, 
int direction); 





15.4.4.9. 一 个 简单 的 PCI DMA 例子 





作为 一 个 DMA 映射 如 何 被 使 用 的 例子 ， 我 们 展示 了 一 个 简单 的 给 一 个 PCI 设备 的 DMA 
编码 的 例子 . 在 PCI 总 线 上 的 数据 的 DMA 操作 的 形式 非常 依赖 被 驱动 的 设备 因此， 这 
个 例子 不 适用 于 任何 真实 的 设备 ; 相反 ， 它 是 一 个 称 为 dad ( DMA Acquisiton Device) 
的 假想 驱动 的 一 部 分 ， 一 个 给 这 个 设备 的 驱动 可 能 定义 一 个 传送 函数 象 这 样 : 











int dad transfer (struct dad dev *dev, int write, void *buffer, 
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size t count) 


{ 
dma addr t bus addr; 


/* Map the buffer for DMA */ 

dev->dma dir = (write ? DMA TO DEVICE : DMA FROM DEVICE); 
dev-»dma size = count; 

bus addr = dma map single(&dev-^pci dev->dev, buffer, count, 


dev-^dma dir); 
dev-»dma addr = bus addr; 


/* Set up the device */ 

writeb(dev-^registers. command, DAD CMD DISABLEDMA) ; 
writeb(dev-^registers.command, write ? DAD CMD WR : DAD CMD RD); 
writel(dev—^registers.addr, cpu to le32(bus addr)); 
writel(dev->registers. len, cpu to le32(count)); 


/* Start the operation */ 


writeb(dev-^registers. command, DAD CMD ENABLEDMA) ; 
return 0; 


} 





这 个 函数 映射 要 被 传送 的 缓冲 并 且 启动 设备 操作 ， 这 个 工作 的 另 一 半 必 须 在 中 断 服务 过 程 
中 完成 ， 这 个 看 来 如 此 : 





void dad interrupt(int irq, void *dev id, struct pt regs *regs) 
{ 


struct dad dev *dev = (struct dad dev *) dev id; 
/* Make sure it's really our device interrupting */ 
/* Unmap the DMA buffer */ 


dma unmap single(dev-^pci dev-»dev, dev-^dma addr, 
dev-^dma size, dev-?dma dir); 


/* Only now is it safe to access the buffer, copy to user, etc. */ 


eB 








显然 ， 这 个 例子 缺乏 大 量 的 细节 ， 包 括 可 能 需要 的 任何 步骤 来 阻止 启动 多 个 同时 的 DMA 
操作 . 


15.4.5. ISA 设备 的 DMA 





ISA 总 线 人 允许 2 类 DMA 传送 : 本 地 DMA 和 ISA 总 线 主 DMA， 本 地 DMA 使 用 在 主板 上 
的 标准 DMA- 控 制 器 电路 来 驱动 ISA 总 线 上 的 信号 线 ，ISA 总 线 主 DMA， 男 一 方面 ， 完 全 
由 外 设 处 理 ， 至 少 从 驱动 的 观点 看 .一 个 ISA 总 线 主 的 例子 是 1542 SCSI 控制 器 ， 在 内 
核 源 码 中 是 在 drivers/scsi/aha1542. c. 








至 于 本 地 DMA， 有 3 个 实体 包含 在 ISA 总 线 上 的 DMA 数据 传送 . 
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The 8237 DMA controller (DMAC) 


控制 器 持 有 关于 DMA 传送 的 信息 ， 诸 如 方向 ， 内 存 地 址 ， 以 及 传送 的 大 小 ， 它 还 
包含 一 个 计数 器 来 跟踪 进行 中 的 传送 的 状态 ， 当 这 个 控制 器 收 到 一 个 DMA 请 求 信 
号 ， 它 获得 总 线 的 控制 权 并 且 驱 动 信号 线 以 便 设备 可 读 或 些 它 的 数据 


























The peripheral device 


这 个 设备 必须 激活 DMA 请 求 线 当 它 准备 传送 数据 时 ， 实 际 的 传送 由 DMAC 管理 ; 
硬件 设备 顺序 读 或 写 数据 到 总 线 当 控 制 器 探测 设备 时 ， 设 备 常 常 触发 中 断 当 传送 结 
束 时 . 














The device driver 





这 个 驱动 什么 不 做 ; 它 提供 给 DMA 控制 占 方 向 ， 总 线 地 址 , 和 传送 的 大 小 ， 它 还 和 
它 的 外 设 通 讯 来 准备 传送 数据 和 响应 中 断 当 DMA 结束 时 . 











开始 的 在 PC 上 使 用 的 DMA 控制 器 管理 4 个 “通道 ， 每 个 有 一 套 DMA 寄存 器 . 4 个 设 
备 可 同时 存储 它 们 的 DMA 信息 在 控制 器 中 ， 更 新 的 PC 包含 相同 的 2 个 DMAC 设备 “: 

第 2 个 控制 器 ( 主 ) 被 连接 到 系统 的 处 理 器 ， 并 且 第 1 个 (从 ) 被 连接 到 第 2 个 控制 器 的 
通道 0. 























最 初 的 PC 只 有 一 个 控制 器 ; 第 2 个 是 在 基于 286 的 平台 上 增加 的 . 但是， 第 2 个 控 
制 器 如 同 主 控制 器 一 样 被 连 eS 因为 它 处理 16- 位 的 传送 ; 第 1 个 只 传送 8 位 每 次 并 且 
它 为 向 后 兼容 而 存在 . 











通道 的 编号 从 0 到 7: 通道 4 对 ISA 外 设 不 可 用 ， 因 为 它 在 内 部 用 来 层 恒 从 控制 器 到 
主 控制 器 ， 因 此 ， 可 用 的 通道 是 0 到 3 在 从 控制 器 上 ( 8- 位 通道 ) 和 5 到 7 到 主 控 
制 器 上 (〈 16- 位 通道 )， 任 何 DMA 传送 的 大 小 ， 当 被 存储 于 控制 器 中 ， 是 一 个 代表 总 线 周 
期 的 数目 的 16- 位 数 ， 最 大 的 传送 大 小 是 ， 因 此 ，64KB 对 于 从 控制 器 (因为 它 传送 8 位 
在 一 个 周期 ) 和 128KB 对 于 主 控制 器 ( 它 进 行 16- 位 传送 ) . 











因为 DMA 控制 器 是 一 个 系统 范围 的 资源 ， 内 核 帮 助 处 理 这 个 ， 它 使 用 一 个 DMA 注册 来 提 
供 一 个 请 求 并 释放 机 制 给 DMA 通道 ， 和 一 套 函 数 来 在 DMA 控制 器 中 配置 通 道 信息 . 











15.4.5.1. 注册 DMA 使 用 


你 应 当 熟 悉 内 核 注 册 -- 我 们 已 经 见 到 它们 在 I/0 端口 和 中 断 线 . poe ree 
的 类 似 . YE Xasm/dma.h» 中 已 经 包含 ， 下 面 的 函数 可 用 来 获得 和 释放 一 个 DMA 通道 的 拥 
^N: 





int request dma(unsigned int channel, const char *name); 
void free dma(unsigned int channel); 











通道 参数 是 一 个 在 0 到 7 之 间 的 数 ， 更 精确 些 ， 一 个 小 于 MAX DMA - CHANNELS 的 正 值 . 
在 PC 上 ， MAX DMA CHANNELS 定义 为 8 来 匹配 硬件 . name 参数 是 一 个 字符 串 来 标识 设 
备 ， 特定 的 name 出 现在 文件 /proc/dma， 它 可 被 用 户 程序 读 . 
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从 request dma 的 返回 值 是 0 对 于 成 功 ， 是 -EINVAL 或 者 -EBUSY 如 果 有 错误 ， 前 者 
意思 是 请 求 的 通道 超 范围 ， 后 者 意思 是 另 一 个 设备 持 有 这 个 通道 . 





我 们 推荐 你 象 对 待 1/0 端口 和 中 断 线 一 样 小 心 对 待 DMA 通道 ; 在 打开 时 请 求 通道 好 于 从 
模块 初始 化 函数 里 请 求 它 . 延 后 请 求 允 许 在 驱动 之 间 的 一 些 共 享 ; 例如 ， 你 的 声卡 和 模拟 
I/0 接口 可 以 共享 DMA 通道 只 要 它们 不 同时 使 用 . 














我 们 还 建议 你 请 求 DMA 通道 在 你 已 请 求 中 断 线 之 后 并 且 你 在 中 断 前 释放 它 ， 这 是 惯用 的 
顺序 来 请 求 这 2 个 资源 ; p.m. 例 避 免 了 死 锁 的 可 能 ， 注意 每 个 使 用 DMA 的 设备 需 
要 一 个 IRQ 线 ; 否则 ， 它 不 能 指示 数据 传送 的 完成 . 








在 一 个 典型 的 情况 ，open 代码 看 来 如 下 ， 引 用 了 我 们 的 假想 的 dad 模块 ，dad 设备 使 用 
了 一 个 快速 中 断 处 理 ， 不 带 共 享 IRQ CB. 





int dad open (struct inode *inode, struct file *filp) 


{ 


struct dad device *my device; 


fk... */ 

if ( (error = request irq(my device. irq, dad interrupt 
SA INTERRUPT, “dad”, NULL)) ) 

return error; /* or implement blocking open */ 


if ( (error = request dma(my device. dma, "dad^)) ) { 
free irq(my device. irq, NULL); 
return error; /* or implement blocking open */ 


} 


fk... */ 
return 0; 


} 
和 open 匹配 的 close 实现 看 来 如 此 : 


void dad close (struct inode *inode, struct file *filp) 


{ 


struct dad device *my device; 
fx... */ 

free dma(my device. dma); 

free irq(my device. irq, NULL); 
fx... */ 

) 





这 是 /proc/dma 文件 在 一 个 安装 有 声卡 的 系统 中 的 样子 : 


merlino* cat /proc/dma 
1: Sound Blaster8 
4: cascade 
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注意 ， 缺 省 的 声音 驱动 获得 DMA 通道 在 系统 局 动 时 并 且 从 不 释放 它 ， 层 登 的 入 口 是 一 个 
占 位 者 ， 指 出 通道 4 对 驱动 不 可 用 ， 如 同 前 面 解释 的 . 








15.4.5.2. 和 DMA 控制 器 通讯 














在 注册 后 ， 驱 动工 作 的 主要 部 分 包括 配置 DMA 控制 器 正确 操作 ， 这 个 任务 并 非 微不足道 
的 ， 但 是 注 运 的 是 ， 内 核 输出 了 典型 驱动 需要 的 所 有 的 函数 . 





























驱动 需要 配置 DMA 控制 器 或 者 读 或 写 被 调用 时 ， 或 者 当 准备 异步 传送 时 ， 后 面 这 个 任务 
或 者 在 打开 时 进行 或 者 响应 一 个 ioctl 命令 ， 根 据 驱 动 和 它 实 现 的 策略 ， 这 里 展示 的 代 
人 码 是 典型 地 被 读 或 写 设备 方法 调用 的 . 








这 一 小 节 提 供 一 个 对 于 DMA 控制 器 内 部 的 快速 概览 ， 这 样 你 可 理解 这 里 介绍 的 代码 ， 如 
果 你 想 知道 更 多 ， 我 们 劝 你 读 《asm/dma. h> 和 一 些 描述 PC 体系 的 硬件 手册 ， 特 别 地 ， 

我 们 不 处 理 8- 位 和 16- 位 传送 的 问题 ， 如 果 你 在 编写 设备 驱动 给 ISA 设备 板 ， 你 应 当 
在 设备 的 硬件 手册 中 找到 相关 的 信息 . 


DMA 控制 器 是 一 个 共享 的 资源 ， 并 且 如 果 多 个 处 理 器 试图 同时 对 它 编 程 会 引起 混乱 ， 为 此 ， 
控制 器 被 一 个 自 旋 锁 保护 ， 称 为 dma_spin_lock， 了 驱动 不 应 当 直 接 操作 这 个 锁 ; 但 是 ，2 
个 函数 已 提供 给 你 来 做 这 个 : 












































unsigned long claim dma lock( ); 


获取 DMA 自 旋 锁 ， 这 个 函数 还 在 本 地 处 理 器 上 阻塞 中 断 ; 因此 ， 返 回 值 是 一 些 描 
述 之 前 中 断 状态 的 标志 ; 它 必须 被 传递 给 随后 的 函数 来 恢复 中 断 状态 ， 当 你 用 完 这 


个 锁 . 











void release dma lock(unsigned long flags); 


返回 DMA 上 自 旋 锁 并 且 恢 复 前 面 的 中 断 状态 . 




















自 旋 锁 应 当 被 持 有 ， 当 使 用 下 面 描述 的 函数 时 ， 但 是 ， 它 不 应 当 被 持 有 ， 在 实际 的 1/0 
当中 .一 个 驱动 应 当 从 不 睡眠 当 持 有 一 个 自 旋 锁 时 . 








必须 被 加 载 到 控制 器 中 的 信息 包括 3 项 : RAM 地 址 ， 必 须 被 传送 的 原子 项 的 数目 (以 字 节 
或 字 计 )， 以 及 传送 的 方向 ， 为 此 ， 下 列 函数 由 《asm/dma.h> 输出 : 





void set dma mode(unsigned int channel, char mode); 


指示 是 否 这 个 通道 必须 从 设备 读 ( DMA MODE READ) 或 者 写 到 设备 (DMA MODE WRITE). 
存在 第 3 个 模式 ，DMA MODE CASCADE， 它 被 用 来 释放 对 总 线 的 控制 ， 层 闭 是 第 1 

个 控制 器 连接 到 第 2 个 控制 器 顶部 的 方式 ， 但 是 它 也 可 以 被 真正 的 ISA 总 线 主 设 
备 使 用 .我 们 这 里 不 讨论 总 线 控制 . 














void set dma addr(unsigned int channel, unsigned int addr); 
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4 Wi DMA 缓冲 的 地 址 ， 这 个 函数 存储 addr 的 低 24 有 效 位 在 控制 器 中 .addr 2 
数 必须 是 一 个 总 线 地 址 \ 见 “总 线 地 址 “一 节 ， 在 本 章 前 面 ). 


void set dma count(unsigned int channel, unsigned int count); 





分 配 传送 的 字 节 数 ， count 参数 也 表示 给 16- 位 通道 的 字 节 ; 在 这 个 情况 下 ， 这 
个 数 必须 是 偶数 . 











除了 这 些 函 数 ， 有 一 些 维 护 工具 必须 用 ， 当 人 处理 DMA 设备 时 : 








void disable dma(unsigned int channel); 














一 个 DMA 通道 可 在 控制 器 内 部 被 关闭 .这 个 通道 应 当 在 控制 器 被 配置 为 阻止 进 一 
步 不 正确 的 操作 前 被 关闭 ，( 否 则 ， 会 因为 控制 器 被 通过 8- 位 数据 传送 被 编程 而 发 
生 破 坏 ， 并 且 ， 因 此 ， 之 前 的 功能 都 不 目 动 执行 . 














void enable dma(unsigned int channel); 
这 个 函数 告知 控制 器 DMA 通道 包含 有 效 数 据 . 


int get dma residue(unsigned int channel); 








这 个 驱动 有 时 需要 知道 是 否 一 个 DMA 传输 已 经 完成 ， 这 个 函数 返回 仍 要 被 传 送 的 
学 节 数 .在 一 次 成 功 的 传送 后 的 返回 值 是 0 并 且 在 控制 器 在 工作 时 是 不 可 预测 的 
(但 不 是 0). 这 种 不 可 预测 性 来 自 需 要 通过 2 个 8- 位 输入 操作 来 获得 16- 位 的 余 
Z. 








void clear dma ff (unsigned int channel) ; 





这 个 函数 清理 DMA flip-flop. 这 个 flip-flop 用 来 控制 对 16-4 寄存 器 的 存 取 . 
这 些 寄存 器 被 2 个 连续 的 8- 位 操作 来 存 取 ， 并 且 这 个 flip-flop 被 用 来 选择 低 
有 效 字 节 ( 当 它 被 清 零 ) 或 者 是 最 高 有 效 字 节 ( 当 它 被 置 位 )，f1ip-flop 自动 翻转 当 
已 经 传送 了 8 位 ; 程序 员 必 须 清除 flip-flop( 来 设置 它 为 已 知 的 状态 ) 在 存 取 
DMA 寄存 器 之 前 . 
































使 用 这 些 ， 一 个 驱动 可 如 下 实现 一 个 函数 来 准备 一 次 DMA 传送 : 


int dad dma prepare(int channel, int mode, unsigned int buf, unsigned int count) 
{ 


unsigned long flags; 


flags = claim dma lock(); 
disable dma (channel); 
clear dma ff(channel); 
set dma mode(channel, mode); 
set dma addr(channel, virt to bus(buf)); 
set dma count(channel, count); 
enable dma(channel); 
release dma lock(flags); 
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return 0; 


} 
接着 ， 一 个 象 下 一 个 的 函数 被 用 来 检查 DMA 的 成 功 完 成 : 


int dad dma isdone(int channel) 


{ 


int residue; 

unsigned long flags = claim dma lock (); 
residue = get dma residue (channel) ; 
release dma lock (flags) ; 

return (residue == 0); 


} 














未 完成 的 唯一 一 个 事情 是 配置 设备 板 . 这 个 设备 特定 的 任务 常常 包含 读 或 写 儿 个 1/0 端 
口 ， 设 备 在 几 个 大 的 方面 不 同 ， 例 如 ， 一 些 设备 期 望 程序 员 告 诉 硬件 DMA 缓冲 有 多 大 ， 
并 且 有 时 驱动 不 得 不 读 一 个 被 硬 连 到 设备 中 的 值 ， 为 配置 板 ， 人 硬件 手册 是 你 唯一 的 朋友 . 























二 当然， 什么 事情 都 有 例外 ; 见 “ 接 收 中 断 缓解 “一 节 在 17 章 ， 演 示 了 高 性 能 网 络 驱动 如 
何 被 使 用 轮 询 最 好 地 实现 . 








“碎片 一 词 常常 用 于 磁盘 来 表达 文件 没有 连续 存储 在 磁 介 质 上 .相同 的 概念 适用 于 内 存 ， 
这 里 每 个 虚拟 地 址 空间 在 整个 物理 RAM 散布 ， 并 且 难 于 获取 连续 的 空闲 页 当 请 求 一 个 
DMA 绥 冲 . 











这些 电路 现在 是 主板 芯片 组 的 一 部 分 ， 但 是 几 年 前 它们 是 2 个 单独 的 8237 芯片 . 


15. 5， 快 速 参考 
本 章 介 绍 了 下 列 关 于 内 存 处 理 的 符号 : 
15. 5. 1， 介 绍 性 材料 


#include Xlinux/mm. h> 
#include <asm/page. h> 




















和 内 存 管理 相关 的 大 部 分 函数 和 结构 ， 原 型 和 定义 在 这 些 头 文件 . 








void * va(unsigned long physaddr); 
unsigned long pal(void *kaddr); 





在 内 核 逻 辑 地 址 和 物理 地 址 之 间 转 换 的 宏 定 义 . 


PAGE SIZE 
PAGE SHIFT 
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常量 ， 给 出 底层 硬件 的 页 的 大 小 ( 字 节 ) 和 一 个 页 面 号 必须 被 移 位 来 转变 为 一 个 物理 
地 址 的 位 数 . 








struct page 





在 系统 内 存 映 射 中 表示 一 个 硬件 页 的 结构 . 


struct page *virt to page(void *kaddr); 
void *page address(struct page *page); 
struct page *pfn to page(int pfn); 


宏 定 义 ， 在 内 核 逻 辑 地 址 和 它们 相关 的 内 存 映 射 入 口 之 间 转 换 的 . page address 
只 用 在 低地 址 页 或 者 已 被 明确 映射 的 高 地 址 页 ，pfn to page 转换 一 个 页 面 号 到 它 
的 相关 的 struct page 指针 . 

















unsigned long kmap (struct page *page); 
void kunmap(struct page *page); 








kmap 返回 一 个 内 核 虚 拟 地 址 ， 被 映射 到 给 定 页 ， 如 果 需 要 并 创建 映射 ，kunmap 为 
给 定 页 删除 映射 . 





Sinclude Xlinux/highmem. h> 

include Xasm/kmap types. h> 

void *kmap atomic(struct page *page, enum km type type); 
void kunmap atomic(void *addr, enum km type type); 


kmap 的 高 性 能 版 本 ; 结果 的 映射 上 只 能 被 原子 代码 持 有 .， 对 于 驱动 ，type 应 当 是 
KM USERI, KM USER1，KM IRQ0， 或 者 KM IRQI. 


struct vm area struct; 





描述 一 个 VMA 的 结构 . 
15.5.2. SES, mmap 


int remap pfn range(struct vm area struct *vma, unsigned long virt add, 
unsigned long pfn, unsigned long size, pgprot t prot); 

int io remap page range(struct vm area struct *vma, unsigned long virt add, 
unsigned long phys add, unsigned long size, pgprot t prot); 








位 于 mmap 核心 的 函数 ， 它 们 映射 size 字 节 的 物理 地 址 ， 从 pfn 指出 的 页 号 开 
始 到 虚拟 地 址 virt_add， 和 虚拟 空间 相关 联 的 保护 位 在 prot 里 指定 . 
io remap page range 应 当 在 目标 地 址 在 1/0 内 存 空间 里 时 被 使 用 . 














struct page *vmalloc to page(void *vmaddr); 


转换 一 个 由 vmalloc 获得 的 内 核 虚拟 地 址 到 它 的 对 应 的 struct page 指针 . 


396 


Linux[] [] (LinuxIDC.com) [] O [] Ubuntu,Fedora,SUSH[] [] O [] O0 m0 0O [] Linux[] EJ [1 EH] U [ 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 


15.5.3. 实现 直接 I/0 


int get user pages (struct task struct *tsk, struct mm struct *mm, unsigned long start, int 
len, int write, int force, struct page **pages, struct vm area struct **vmas) ; 





ERA, Jn — HL PR IRIZETPAUPNEJE H3RIRDSENZ struct page 指针 .调用 者 
必须 持 有 mn-^mmap sem. 


SetPageDirty(struct page **page); 





宏 定 义 ， 标 识 给 定 的 页 为 “ 脏 “( 被 修改 ) 并 且 需 要 写 到 它 的 后 备 存 储 ， 在 它 被 释放 前 . 





void page cache release(struct page *page); 


释放 给 定 的 页 从 页 缓存 中 . 


int is sync kiocb(struct kiocb *iocb); 





DE 返回 非 零 如 果 给 定 的 IOCB 需要 同步 执行 . 





int aio complete(struct kiocb *iocb, long res, long res2); 
函数 ， 指 示 一 个 异步 1/0 操作 完成 . 

15. 5. 4， 直 接 内 存 存 取 

&include <asm/io. h> 


unsigned long virt to bus (volatile void * address); 
void * bus to virt(unsigned long address); 


过 时 的 不 好 的 函数 ， 在 内 核 ， 虚 拟 ， 和 总 线 地 址 之 间 转 换 ， 总 线 地 址 必须 用 来 和 外 
设 通讯 


#include <linux/dma-mapping. h> 





需要 来 定义 通用 DMA 函数 的 头 文 件 . 


int dma set mask(struct device *dev, u64 mask); 





对 于 无 法 寻 址 整个 32- 位 范围 的 外 设 ， 这 个 函数 通知 内 核 可 寻 址 的 地 址 范围 并 且 如 
果 可 进行 DMA 返回 非 零 . 





void *dma alloc coherent (struct device *dev, size t size, dma addr t *bus addr, int flag); 
void dma free coherent (struct device *dev, size t size, void *cpuaddr, dma handle t 
bus addr); 














分 配 和 释放 一 致 DMA 映射 ， 对 一 个 将 持续 在 驱动 的 生命 周期 中 的 缓冲 . 


#include <linux/dmapool. h> 
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struct dma pool *dma pool create(const char *name, struct device *dev, size t size, size t 
align, size t allocation); 
void dma pool destroy(struct dma pool *pool); 
void *dma pool alloc(struct dma pool *pool, int mem flags, dma addr t *handloe); 
void dma pool free(struct dma pool *pool, void *vaddr, dma addr t handle); 





创建 ， 销 毁 ， 和 使 用 DMA 池 来 管理 小 DMA 区 的 函数 . 








enum dma data direction; 
DMA TO DEVICE 

DMA FROM DEVICE 

DMA BIDIRECTIONAL 

DMA NONE 


符号 ， 用 来 告知 流 映射 函数 在 什么 方向 数据 移入 或 出 缓冲 . 


dma addr t dma map single(struct device *dev, void *buffer, size t size, enum 





dma data direction direction); 
void dma unmap single(struct device *dev, dma addr t bus addr, size t size, enum 
dma data direction direction); 





创建 和 销毁 一 个 单 使 用 ， 流 DMA 映射 . 


void dma sync single for cpu(struct device *dev, dma handle t bus addr, size t size, enum 








dma data direction direction); 
void dma sync single for device(struct device *dev, dma handle t bus addr, size t size 








enum dma data direction direction); 











同步 一 个 由 一 个 流 映 射 的 缓冲 ， 必 须 使 用 这 些 函 数 ， 如 果 处 理 器 必须 存 取 一 个 缓冲 
当 使 用 流 映 射 时 .〈( 即 ， 当 设备 拥有 缓冲 时 ). 


#include <asm/scatterlist. h> 
struct scatterlist { /* ... */ }; 
dma addr t sg dma address (struct scatterlist *sg); 





unsigned int sg dma len(struct scatterlist **sg); 








这 个 散布 表 结 构 描 述 一 个 涉及 不 止 一 个 绥 冲 的 I/0 操作 . Z sg dma address he 
sg dma len 可 用 来 抽取 总 线 地 址 和 缓冲 长 度 来 传递 给 设备 ， 当 实现 发 散 /汇聚 操作 
时 . 





dma map sg(struct device *dev, struct scatterlist *list, int nents, enum 

dma data direction direction); 

dma unmap sg(struct device *dev, struct scatterlist *list, int nents, enum 

dma data direction direction); 

void dma sync sg for cpu(struct device *dev, struct scatterlist *sg, int nents, enum 
dma data direction direction); 

void dma sync sg for device(struct device *dev, struct scatterlist *sg, int nents, enum 





dma data direction direction); 


dma map sg 映射 一 个 发 散 /汇聚 操作 ， 并 且 dma unmap sg 恢复 这 些 映射 ， 如 果 
在 这 个 映射 被 激活 时 缓冲 必须 被 存 取 ，dma_sync_sg * 可 用 来 同步 . 
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/ proc/ dma 














包含 在 DMA 控制 器 中 的 被 分 配 的 通道 的 文本 快照 的 文件 ， 基 于 PCI 的 DMA 不 显 
示 ， 因 为 每 个 板 独 立 工 作 ， 不 需要 分 配 一 个 通道 在 DMA 控制 器 中 . 























Hinclude <asm/dma. h> 





定义 或 者 原型 化 所 有 和 DMA 相关 的 函数 和 宏 定 义 ， 它 必须 被 包含 来 使 用 任何 下 面 


fi. 





int request dma(unsigned int channel, const char *name); 
void free dma(unsigned int channel); 





存 取 DMA 注册 . 注册 必须 在 使 用 ISA DMA 通道 之 前 进行 . 


unsigned long claim dma lock( ); 
void release dma lock(unsigned long flags); 


获取 和 释放 DMA 目 旋 锁 ， 它 必须 被 持 有 ， 在 调用 其 他 的 在 这 个 列表 中 描述 的 ISA 
DMA 函数 之 前 .它们 在 本 地 处 理 器 上 也 关闭 和 重新 使 能 中 断 








void set dma mode(unsigned int channel, char mode); 
void set dma addr(unsigned int channel, unsigned int addr); 
void set dma count(unsigned int channel, unsigned int count); 


编程 DMA 信息 在 DMA 控制 器 中 .addr 是 一 个 总 线 地 址 . 





void disable dma(unsigned int channel); 
void enable dma(unsigned int channel); 


一 个 DMA 通道 必须 被 关闭 在 配置 期 间 ， 这 些 函 数 改 变 DMA 通道 的 状态 


int get dma residue(unsigned int channel); 





如 果 这 驱动 需要 知道 一 个 DMA 传送 在 进行 ， 它 可 调用 这 个 函数 ， 返 回 尚未 完成 的 
数据 传输 的 数目 ， 在 成 功 的 DMA 完成 后 ， 这 个 函数 返回 0; 值 是 不 可 预测 的 当 数 
据 仍 然 在 传送 时 . 


void clear dma ff(unsigned int channel); 


DMA flip-flop 被 控制 器 用 来 传送 16- 位 值 ， 通 过 2 个 8 位 操作 . 它 必 须 被 清除 ， 
在 发 送 任何 数据 给 处 理 器 之 前 . 
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第 16 章 块 驱动 


至 今 ， 我 们 的 讨论 一 直 限 于 字符 驱动 . 但 是 ， 在 Linux 系统 中 有 其 他 类 型 的 驱动 ， 并 且 到 时 候 要 开阔 
我 们 的 视野 了 因此， 本章 讨 论 块 驱 动 . 




















一 个 块 驱动 提供 设备 的 存 取 ， 这 个 设备 可 随机 地 以 固定 大 小 的 块 传送 数据 -- 主 要 的 是 ， 侯 盘 驱 动 
Linux 内 核 看 符 块 设备 根本 上 不 同 于 字符 设备 ; 结果 ， 块 驱动 有 明显 不 同 的 接口 和 它们 自己 的 特殊 的 挑 
战 























高 效 的 块 驱动 对 于 性 能 是 重要 的 一 不 只 是 为 在 用 户 应 用 程序 的 明确 的 读 和 写 ， 现 代 的 有 虚拟 内 存 的 系 
统 将 不 需要 的 数据 移 向 (希望 地 ) 二 级 存储 中 ， 它 常常 是 一 个 磁盘 驱动 器 . 块 驱动 是 核心 内 存 和 二 级 存储 
之 间 的 导管 ; 因此 ， 它 们 可 组 成 虚拟 内 存 子 系统 的 一 部 分 ， 虽 然 可 能 编写 一 个 块 驱动 不 必 知 道 struct 
page 和 其 他 重要 的 内 存 概念 ， 任 何 需要 编写 一 个 高 性 能 驱动 的 人 必须 使 用 15 章 毛 涉及 的 内 容 . 






























































山 | 

















许多 块 层 的 设计 围绕 性 能 ， 许 多 字符 设备 可 在 它们 的 最 大 速率 以 下 运行 ， 并 且 系统 的 总 体 性 能 不 被 影响 . 
但 是 如 果 它 的 块 1/0 子 系统 没有 调整 好 ， 系 统 不 能 很 好 地 运行 ， Linux 块 驱动 接口 允许 你 从 一 个 块 设 
备 中 获得 最 多 输出 ， 但 是 有 必要 ， 施 加 一 些 你 必须 处 理 的 复杂 性 .好 的 是 ，2.6 的 块 接口 比 之 前 的 内 核 
很 大 提高 . 













































































如 你 会 期 望 的 ， 本 章 的 讨论 集中 在 一 个 例子 驱动 ， 它 实现 了 一 个 面向 块 的 ， 基 于 内 存 的 设备 ， 基 本 上 ， 
它 是 一 个 ramdisk. 内核 硬件 包含 了 一 个 很 高 级 的 ramdisk 实现 ， 但 是 我 们 的 驱动 ( 称 为 spul1) 让 我 
们 演示 创建 一 个 块 驱动 ， 同 时 最 小 化 无 关 的 复杂 性 . 

















在 进入 细节 之 前 ， 我 们 精确 定义 几 个 词语 ;一 个 块 是 一 个 固定 大 小 的 数据 块 ， 大 小 由 内 核 决 定 ， 块 常常 
是 4096 字 节 ， 但 是 这 个 值 可 依赖 体系 和 使 用 的 文件 系统 而 变化 ， 一 个 请 区 ， 相 反 ， 是 一 个 小 块 ， 它 的 
大 小 常常 由 底层 的 硬件 决定 ， 内核 期 望 处 理 实现 512- 字 节 扇 区 的 设备 . 如 果 你 的 设备 使 用 不 同 的 大 小 ， 
内 核 调整 并 且 避 免 产 生硬 件 无 法 处 理 的 L/O 请 求 . 但 是 ， 它 值得 记 住 ， 任 何 时 候 内 核 给 你 一 个 扇 区 号 ， 
它 是 工作 在 一 个 512- 字 节 扇 区 的 世界 .如 果 你 使 用 不 同 的 人 硬件 扇 区 大 小 ， 你 必须 相应 地 调整 内 核 的 请 
区 号 ， 我 们 在 sbull 驱动 中 见 如 何 完 成 这 个 . 


16.1. 注册 


块 驱动 ， 象 字符 驱动 ， 必 须 使 用 一 套 注册 接口 来 使 内 核 可 使 用 它们 的 设备 ， 概 念 是 类 似 的 ， 
但 是 块 设备 注册 的 细节 是 都 不 同 的 ， 你 有 一 整套 新 的 数据 结构 和 设备 操作 要 学 习 . 


16. 1. 1， 块 驱动 注册 


大 部 分 块 驱 动 采取 的 第 一 步 是 注册 它们 自己 到 内 核 . 这 个 任务 的 函数 是 
register blkdev( 在 《linux/fs.h> 中 定义 ) : 






















































































int register blkdev(unsigned int major, const char *name) ; 











参数 是 你 的 设备 要 使 用 的 主编 号 和 关联 的 名 子 (内 核 将 显示 它 在 /proc/devices). 如 果 
major 传递 为 0， 内 核 分 配 一 个 新 的 主编 号 并 且 返 回 它 给 调用 者 . 如常， 自 
register blkdev 的 一 个 负 的 返回 值 指示 已 发 生 了 一 个 错误 . 














取消 注册 的 对 应 函数 是 : 
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int unregister blkdev(unsigned int major, const char *name); 


这 里 ， 参 数 必 须 匹 配 传递 给 register blkdev 的 那些 ， 和 否则 这 个 函数 返回 -EINVAL 3f H. 
什么 都 不 注销 . 





在 2.6 内 核 ， 对 register blkdev 的 调用 完全 是 可 选 的 ， 由 register blkdev 所 进行 的 
功能 已 随时 间 正 在 减少 ; 这 个 调用 唯一 的 任务 是 (1) 如 果 需 要 ， 分 配 一 个 动态 主编 号 ， 
并 且 (2) 在 /proc/devices 创建 一 个 入 口 . 在 将 来 的 内 核 ，register blkdev 可 能 被 一 
起 去 掉 ， 同 时 ， 但 是 ， 大 部 分 驱动 仍然 调用 它 ; 它 是 惯例 . 


16.1.2. 磁盘 注册 














虽然 register blkdev 可 用 来 获得 一 个 主编 号 ， 它 不 使 任何 磁盘 驱动 器 对 系统 可 用 ， 有 
一 个 分 开 的 注册 接口 你 必须 使 用 来 管理 单独 的 驱动 器 .使 用 这 个 接口 要 求 熟 悉 一 对 新 结构 ， 
这 就 是 我 们 的 起 点 . 


16.1.2.1. 块 设备 操作 





























字符 设备 通过 file 操作 结构 使 它们 的 操作 对 系统 可 用 . 一 个 类 似 的 结构 用 在 块 设备 上 ; 
它 是 struct block device operations, 4E YX.fE <linux/fs. h>. 下 面 是 一 个 对 这 个 结构 
中 的 成 员 的 简短 的 概览 ， 当 我 们 进入 sbull 驱动 的 细节 时 详细 重新 访问 它们 . 











int Ckopen) (struct inode *inode, struct file *filp); 
int Ckrelease) (struct inode *inode, struct file *filp); 





就 像 它 们 的 字符 驱动 对 等 体 一 样 工作 的 函数 ; 无 论 何 时 设备 被 打开 和 关闭 都 调用 它 
们 ， 一 个 字符 驱动 可 能 通过 启动 设备 或 者 锁 住 门 (为 可 移出 的 介质 ) 来 啊 应 一 个 
open 调用 ， 如 果 你 将 介质 锁 入 设备 ， 你 当然 应 当 在 release 方法 中 解锁 . 











int (*ioctl) (struct inode *inode, struct file *filp, unsigned int cmd, 
unsigned long arg); 





实现 ioctl 系统 调用 的 方法 . 但 是 ， 块 层 首先 解释 大 量 的 标准 请 求 ; 因此 大 部 分 
的 块 驱动 ioctl 方法 相当 短 . 








int Ckmedia changed) (struct gendisk **gd); 





被 内 核 调用 来 检查 是 否 用 户 已 经 改变 了 驱动 器 中 的 介质 的 方法 ， 如 果 是 这 样 返回 一 
个 非 零 值 ， 显 然 ， 这 个 方法 仅 适 用 于 支持 可 移出 的 介质 的 驱动 器 (并 且 最 好 给 驱动 
一 个 “介质 被 改变 “标志 ) ;在 其 他 情况 下 可 被 忽略 . 








struct gendisk 参数 是 内 核 任何 表示 单个 磁盘 ;我们 将 在 下 一 习 查 看 这 个 结构 . 


int (*revalidate disk) (struct gendisk *gd); 











revalidate disk 方法 被 调用 来 响应 一 个 介质 改变 ， 它 给 驱动 一 个 机 会 来 进行 需要 
的 任何 工作 使 新 介质 准备 好 使 用 .这 个 函数 返回 一 个 int 值 ， 但 是 值 被 内 核 忽 略 . 
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struct module *owner; 





一 个 指向 拥有 这 个 结构 的 模块 的 指针 ; 它 应 当 常 第 被 初始 化 为 THIS MODULE. 








专心 的 读者 可 能 已 注意 到 这 个 列表 一 个 有 趣 的 省 略 : 没有 实际 读 或 写 数据 的 函数 .在 块 
1/0 子 系统 ， 这 些 操作 由 请 求 函 数 处 理 ， 它 们 应 当 有 它们 上 自己 的 一 节 并 且 在 本 章 后 面 讨论 . 
在 我 们 谈论 服务 请 求 之 前 ， 我 们 必须 完成 对 磁盘 注册 的 讨论 . 














16.1.2.2. gendisk 结构 


struct gendisk (定义 于 《linux/genhd.h>) 是 单独 一 个 人 磁盘 驱动 器 的 内 核 表 示 .， 事实 上 ， 
内 核 还 使 用 gendisk 来 表示 分 区 ， 但 是 驱动 作者 不 必 知 道 这 点 struct gedisk 中 有 几 
个 成 员 ， 必 须 被 一 个 块 驱动 初始 化 : 








int major; 
int first minor; 
int minors; 





描述 被 磁盘 使 用 的 设备 号 的 成 员 ， 至 少 ， 一 个 驱动 器 必须 使 用 最 少 一 个 次 编号 ， 如 
果 你 的 驱动 会 是 可 分 区 的 ， 但 是 (并 且 大 部 分 应 当 是 )， 你 要 分 配 一 个 次 编号 给 每 个 
可 能 的 分 区 ， 次 编号 的 一 个 普通 的 值 是 16， 它 允许 “全 磁盘 ”设备 例 15 个 分 区 . 
一 些 磁盘 驱动 使 用 64 个 次 编号 给 每 个 设备 . 











char disk name[32]; 





应 当 被 设置 为 磁盘 驱动 器 名 子 的 成 员 ， 它 出 现在 /proc/partitions 和 sysfs. 


struct block device operations *fops; 





来 自前 一 节 的 设备 操作 集合 . 
struct request queue *queue; 


被 内 核 用 来 管理 这 个 设备 的 1/0 请 求 的 结构 ; 我 们 在 请求 处 理 “ 一 节 中 检查 它 . 











int flags; 





一 套 标志 (很 少 使 用 ) ， 描 述 驱 动 器 的 状态 ， 如 果 你 的 设备 有 可 移出 的 介质 ， 你 应 当 
设置 GENHD FL REMOVABLE. CD-ROM 驱动 器 可 设置 GENHD FL CD. 如果， 由 于 某 些 
原因 ， 你 不 需要 分 区 信息 出 现在 /proc/partitions， 设 置 

GENHD FL SUPPRESS PARTITIONS INFO. 














sector t capacity; 


这 个 驱动 器 的 容量 ， 以 512- 字 节 扇 区 来 计 . sector t 类 型 可 以 是 64 位 宽 ， 驱动 
不 应 当 直 接 设 置 这 个 成 员 ; 相反 ， 传 递 扇 区 数目 给 set capacity. 
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void *private data; 








块 驱动 可 使 用 这 个 成 员 作 为 一 个 指向 它们 目 己 内 部 数据 的 指针 . 








内 核 提 供 了 一 小 部 分 函数 来 使 用 gendisk 结构 .我 们 在 这 里 介绍 它们 ， 接 着 看 sbull 如 
何 使 用 它们 来 使 系统 可 使 用 它 的 磁盘 驱动 器 . 

















struct gendisk 是 一 个 动态 分 配 的 结构 ， 它 需要 特别 的 内 核 操 作 来 初始 化 ; 驱动 不 能 目 
己 分 配 这 个 结构 ， 相反， 你 必须 调用 : 





struct gendisk *alloc disk(int minors); 

















minors 参数 应 当 是 这 个 磁盘 使 用 的 次 编号 数目 ; 注意 你 不 能 在 之 后 改变 minors 成 员 并 
且 期 望 事情 可 以 正确 工作 ， 当 不 再 需要 一 个 磁盘 时 ， 它 应 当 被 释放 ， 使 用 : 























void del gendisk(struct gendisk **gd); 


一 个 gendisk 是 一 个 被 引用 计数 的 结构 ( 它 含 有 一 个 kobject). 有 get disk 和 

put disk 函数 用 来 操作 引用 计数 ， 但 是 驱动 应 当 从 不 需要 做 这 个 ， 正 常 地 ， 对 

del gendisk 的 调用 去 掉 了 最 一 个 gendisk 的 最 终 的 引用 ， 但 是 不 保证 这 样 。 因此， 这 
个 结构 可 能 继续 存在 (并 且 你 的 方法 可 能 被 调用 ) 在 调用 del_gendisk 之 后 ， 但是， 如 果 
你 删除 这 个 结构 当 没 有 用 户 时 ( 即 ， 在 最 后 的 释放 之 后 ， 或 者 在 你 的 模块 清理 函数 )， 你 可 
确信 你 不 会 再 收 到 它 的 信息 . 










































































分 配 一 个 gendisk 结构 不 能 使 系统 可 使 用 这 个 磁盘 .要 做 到 这 点 ， 你 必须 初始 化 这 个 结 
构 并 且 调 用 add disk: 


void add disk(struct gendisk *gd); 








这 里 记 住 一 件 重要 的 事情 :一 旦 你 调用 add_disk， 这 个 磁盘 是 “ 活 的 “并 且 它 的 方法 可 被 在 
任何 时 间 被 调用 ， 实 际 上 ， 这 样 的 第 一 个 调用 将 可 能 发 生 ， 即 便 在 add disk 返回 之 前 ; 
内 核 将 读 前 几 个 字 节 以 试图 找到 一 个 分 区 表 ， 因 此 你 不 应 当 调 用 add disk 直到 你 的 驱动 
被 完全 初始 化 并 且 准 备 好 响应 对 那个 磁盘 的 请 求 ， 


16.1.3. 在 sbull 中 的 初始 化 


是 时 间 进 入 一 些 例子 了 .sbull 驱动 (从 O'Reilly 的 FTP 网 站 ， 以 及 其 他 例子 源码 ) Sz 
现 一 套 内 存 中 的 虚拟 磁盘 驱动 器 . 对 每 个 驱动 器 ，sbull 分 配 ( 使 用 vmalloc， 为 了 人 简单 ) 
一 个 内 存 数组 ; 它 接 着 使 这 个 数组 可 通过 块 操作 来 使 用 ， 这 个 sbull 驱动 可 通过 分 区 这 
个 驱动 器 ， 在 上 面 建 立 文件 系统 ， 以 及 加 载 到 系统 层级 中 来 测试 . 


























象 我 们 其 他 的 例子 驱动 一 样 ，sbull 允许 一 个 主编 号 在 编译 或 者 模块 加 载 时 被 指定 .如果 
没有 指定 ， 动 态 分 配 一 个 ， 因 为 对 register blkdev 的 调用 被 用 来 动态 分 配 ，sbull 应 
当 这 样 做 : 














sbull major = register blkdev(sbull major, ^sbull^); 
if (sbull major <= 0) 
{ 
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printk(KERN WARNING “sbull: unable to get major numberWn^); 
return -EBUSY; 

} 











同样 ， 象 我 们 在 本 书 已 展现 的 其 他 虚拟 设备 ，sbull 设备 由 一 个 内 部 结构 描述 : 


struct sbull dev { 

int size; /* Device size in sectors */ 

u8 *data; /* The data array */ 

short users; /* How many users */ 

short media change; /* Flag a media change? */ 

spinlock t lock; /* For mutual exclusion */ 

struct request queue *queue; /* The device request queue */ 
struct gendisk *gd; /* The gendisk structure */ 

struct timer list timer; /* For simulated media changes */ 


E 








需要 几 个 步骤 来 初始 化 这 个 结构 ， 并 且 使 系统 可 用 关联 的 设备 ， 我 们 从 基本 的 初始 化 开始 ， 
并 且 分 配 底层 的 内 存 : 














memset (dev, 0, sizeof (struct sbull dev) ) ; 

dev-^5size = nsectors*hardsect size; 

dev->data = vmalloc(dev-?size); 

if (dev->data == NULL) 

{ 
printk (KERN NOTICE “vmalloc failure. n^); 
return; 

) 

spin lock init (&dev-?lock); 





























重要 的 是 在 下 一 步 之 前 分 配 和 初始 化 一 个 自 旋 锁 ， 下 一 步 是 分 配 请 求 队列 我们 在 进入 请 
求 处 理 时 详细 看 这 个 过 程 ;现在 ， 只 需 说 必要 的 调用 是 : 








dev->queue = blk init queue(sbull request, &dev-?lock); 


XE, sbull request ZÉJXÁLIicKER ZR 一 实际 进行 块 读 和 写 请 求 的 函数 ， 当 我 们 分 配 
一 个 请 求 队列 时 ， 我 们 必须 提供 一 个 自 旋 锁 来 控制 对 那个 队列 的 存 取 ， 这 个 锁 由 驱动 提供 
而 不 是 内 核 通常 的 部 分 ， 因 为 ， 第 常 ， 请 求 队列 和 其 他 的 驱动 数据 结构 在 相同 的 临界 区 ; 
它们 可 能 被 同时 存 取 ， 如 同 任何 分 配 内 存 的 函数 ，blk_init_queue 可 能 失败 ， 因 此 你 必 
须 在 继续 之 前 检查 返回 值 . 
































一 旦 我 们 有 我 们 的 设备 内 存 和 请 求 队 列 ， 我 们 可 分 配 ， 初 始 化 ， 并 且 安 装 对 应 的 gendisk 
结构 ， 做 这 个 工作 的 代码 是 : 





MT 


dev->gd = alloc disk(SBULL MINORS) ; 

if (! dev->gd) 

{ 
printk (KERN NOTICE “alloc disk failureWn^); 
goto out vfree; 


} 


dev->gd->major = sbull major; 
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dev-?gd-^first minor = which*SBULL MINORS; 
dev->gd->fops = &sbull ops; 
dev->gd->queue = dev-?queue; 
dev-?gd-^?private data = dev; 
snprintf (dev->gd->disk name, 32, “sbull%c”, which + 'a'); 
set capacity (dev-^gd, nsectors*(hardsect size/KERNEL SECTOR SIZE)); 
add disk(dev->gd) ; 


这 里 ，SBULL MINORS 是 每 个 sbull 设备 所 支持 的 次 编号 的 数目 ， 当 我 们 设置 第 一 个 次 编 
号 给 每 个 设备 ， 我 们 必须 考虑 被 之 前 的 设备 所 用 的 全 部 编号 ， 磁 盘 的 名 子 被 设置 ， 这 样 第 
一 个 是 spulla， 第 二 个 是 sbullb， 等 等 .用 户 空 间 可 接着 添加 分 区 号 以 便 它们 在 第 2 
个 设备 上 的 分 区 可 能 是 /dev/sbul13. 

















一 旦 所 有 的 都 被 设置 ， 我 们 以 对 add disk 的 调用 来 结束 .我 们 的 儿 个 方法 将 在 
add disk 返回 时 被 调用 ， 因 此 我 们 负责 做 这 个 调用 ， 这 是 初始 化 我 们 的 设备 的 最 后 一 步 . 


16. 1. 4 注意 扇 区 大 小 


如 同 我 们 之 前 提 到 的 ， 内 核对 待 每 个 磁盘 如 同一 个 512- 字 节 遍 区 的 数组 .不 是 所 有 的 便 
件 都 使 用 那个 遍 区 大 小 ， 但 是 .使 一 个 有 不 同 记 区 大 小 的 设备 工作 不 是 一 件 很 难 的 事 ; 只 
要 小 心 处 理 几 个 细节 . sbull 设备 输出 一 个 hardsect size 参数 ， 可 被 用 来 改变 设备 的 ” 
硬件“ 扇 区 大 小 .通过 看 它 的 实现 ， 你 可 见 到 如 何 添 加 这 个 文 持 到 你 自己 的 驱动 . 

















这 些 细节 中 的 第 一 个 是 通知 内 核 你 的 设备 文 持 的 扇 区 大 小 ， 硬件 扇 区 大 小 是 一 个 在 请 求 队 
列 的 参数 ， 而 不 是 在 gendisk 结构 .这 个 大 小 通过 调用 blk queue hardsect size 设置 
的 ， 在 分 配 队 列 后 马上 进行 : 





blk queue hardsect size(dev-^queue, hardsect size); 


一 旦 完成 那个 ， 内 核 坚 持 你 的 设备 的 硬件 扇 区 大 小 .所 有 的 I/0 请 求 被 正确 对 齐 到 一 个 
硬件 扇 区 的 起 始 ， 并 且 每 个 请 求 的 长 度 是 一 个 整数 的 扇 区 数 ， 你 必须 记 住 ， 但 是 ， 内 核 一 
直 以 512- 字 节 扇 区 表述 自己 ; 因此 ， 有 必要 相应 地 转换 所 有 的 扇 区 号 ， 因 此， 例如 ， 当 
sbull 在 它 的 gendisk 结构 中 设置 设备 的 容量 时 ， 这 个 调用 看 来 象 : 














set capacity (dev-^gd, nsectors*(hardsect size/KERNEL SECTOR SIZE) ) ; 


KERNEL SECTOR SIZE 是 一 个 本 地 定义 的 常量 ， 我 们 用 来 调整 内 核 的 512- 字 节 和 任何 我 们 
已 被 告知 要 使 用 的 大 小 ， 在 我 们 查看 sbull 请 求 处 理 逻 辑 中 会 不 时 看 到 这 类 计算 出 来 . 


16. 2， 块 设备 操作 


在 前 面 一 节 中 我 们 对 block_device_operations 有 了 简短 的 介绍 ， 现 在 我 们 详细 些 看 看 
这 些 操作 ， 在 进入 请 求 处 理 之 前 ， 为 此 ， 是 时 间 提 到 sbull 驱动 的 另 一 个 特性 : 它 假装 
是 一 个 可 移出 的 设备 ， 无 论 何 时 最 后 一 个 用 户 关闭 设备 ， 一 个 30 秒 的 定时 器 被 设置 ; 如 
果 设 备 在 这 个 时 间 内 不 被 打开 ， 设 备 的 内 容 被 清除 ， 并 且 内 核 被 告知 介质 已 被 改变 30 
秒 延 迟 给 了 用 户 时 间 ， 例 如 ， 来 卸载 一 个 sbull 设备 在 创建 一 个 文件 系统 之 后 . 












































16.2.1. open 和 release 方法 
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为 实现 模拟 的 介质 移出 ， 当 最 后 一 个 用 户 已 关闭 设备 时 sbull 必须 知道 .一 个 用 户 计数 
被 驱动 维护 ， 它 是 open 和 close 方法 的 工作 来 保持 这 个 计数 最 新 . 

















open 方法 看 起 来 非常 类 似 于 它 的 字符 驱动 对 等 体 ; 它 用 相关 的 节点 和 文件 结构 指针 作为 
参数 ， 当 一 个 节点 引用 一 个 块 设备 ，i bdev->bd disk 包含 一 个 指向 关联 gendisk 结构 
的 指针 ; 这 个 指针 可 用 来 获得 一 个 驱动 的 给 设备 的 内 部 数据 结构 ， 即 ， 实 际 上 ，sbull 

open 方法 做 的 第 一 件 事 : 








static int sbull open(struct inode *inode, struct file *filp) 
{ 
struct sbull dev *dev = inode->i bdev->bd disk->private data; 
del timer _ sync (&dev->timer) ; 
filp->private data = dev; 
spin lock (&dev->lock) 


if (! dev->users) 

check disk change(inode-^i bdev); 
dev-^users-**; 
spin unlock (&dev-?lock) 


return 0; 


} 





一 旦 sbull open 有 它 的 设备 结构 指针 ， 它 调用 del timer sync 来 去 掉 “ 介 质 移出 ?定时 
器 ， 如 果 有 一 个 是 活 的 ， 注意 我 们 不 加 锁 设 备 自 旋 锁 ， 直 到 定时 器 被 删除 后 ; 如 果 定 时 器 
函数 在 我 们 可 删除 它 之 前 运行 ， 反 过 来 做 会 有 死 锁 ， 在 设备 加 锁 下 ， 我 们 调用 一 个 内 核 函 
数 ， 称 为 check_disk_change， 来 检查 是 否 已 发 生 一 个 介质 改变 ， 可 能 有 人 争论 说 内 核 应 
当做 这 个 调用 ， 但 是 标准 模式 是 为 驱动 来 在 打开 时 处 理 它 . 























最 后 一 步 是 递增 用 户 计 数 并 且 返 回 . 





释放 方法 的 任务 是 ， 相 反 ， 来 递减 用 户 计 数 ， 以 及 ， 如 果 被 指示 了 ， 局 动 介质 移出 定时 器 : 


static int sbull release(struct inode *inode, struct file *filp) 


{ 
struct sbull dev *dev = inode->i bdev->bd disk->private data; 
spin lock(&dev-^lock) 


dev-^users--; 

if (ldev-^users) 

{ 
dev-^timer. expires = jiffies + INVALIDATE DELAY; 
add timer (&dev-^timer); 


) 


spin unlock (&dev-»lock); 
return 0; 


} 





在 一 个 处 理 真实 的 人 硬件 设备 的 驱动 中 ，open 和 release 方法 应 当 相应 地 设置 驱动 和 硬件 
的 状态 ， 这 个 工作 可 能 包括 起 停 磁盘 ， 加 锁 一 个 可 移出 设备 的 门 ， 分 配 DMA 缓冲 ， 等 等 . 
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你 可 能 奇怪 谁 实 际 上 打开 了 一 个 块 设备 ， 有 一 些 操作 可 导致 一 个 块 设备 从 用 户 空间 直接 打 
JF; 这 包括 分 区 一 个 磁盘 ， 在 一 个 分 区 上 建立 一 个 文件 系统 ， 或 者 运行 一 个 文件 系统 检查 
器 ， 当 加 载 一 个 分 区 时 ， 块 驱动 也 可 看 到 一 个 open 调用 .在 这 个 情况 下 ， 没 有 用 户 空 间 
进程 持 有 一 个 这 个 设备 的 打开 的 文件 描述 符 ; 相反 ， 打 开 的 文件 被 内 核 目 身 持 有 ， 块 驱动 
无 法 知道 一 个 加 载 操作 ( 它 从 内 核 打 开设 备 ) 和 调用 如 mkfs 工具 (从 用 户 空间 打开 它 ) 之 间 
的 差别 . 


16. 2. 2. 支持 可 移出 的 介质 


block device operations 结构 包含 2 个 方法 来 支持 可 移出 介质 ， 如 果 你 为 一 个 非 可 移 
出 设备 编写 一 个 驱动 ， 你 可 安全 地 忽略 这 些 方法 .它们 的 实现 是 相对 直接 的 . 





























media changed 方法 被 调用 ( 从 check disk change ) 来 看 是 否 介 质 已 经 被 改变 ; 它 应 
当 返 回 一 个 非 零 值 ， 如 果 已 经 发 生 . sbull 实现 是 简单 的 ; 它 查 询 一 个 已 被 设置 的 标志 ， 
如 果 介 质 移出 定时 器 已 超时 : 








int sbull media changed(struct gendisk **gd) 

{ 
struct sbull dev *dev = gd-?private data; 
return dev-?media change; 


} 




















revalidate 方法 在 介质 改变 后 被 调用 ; 它 的 工作 是 做 任何 需要 的 事情 来 准备 驱动 对 新 介 
质 的 操作 ， 如 果 有 . 在 调用 revalidate 之 后 ， 内 核 试图 重新 读 分 区 表 并 且 局 动 这 个 设备 . 
sbull 的 实现 仅仅 复位 media change 标志 并 且 清 零 设 备 内 存 来 模拟 一 个 空 盘 插 入 . 








int sbull revalidate(struct gendisk *gd) 


{ 


struct sbull dev *dev = gd->private data; 


if (dev-^media change) 
{ 
dev->media_change = 0; 
memset (dev->data, 0, dev->size); 


) 


return 0; 


} 


16.2.3. ioctl 方法 








块 设 备 可 提供 一 个 ioctl 方法 来 进行 设备 控制 函数 ， 高 层 的 块 子 系统 代码 在 你 的 驱动 能 
见 到 它们 之 前 解释 许多 的 ioctl 命令 ， 但 是 ( 全 部 内 容 见 drivers/block/ioctl.c ， 在 
内 核 源 码 中 ).， 实际 上 ， 一 个 现代 的 块 驱 动 根本 不 必 实 现 许多 的 ioctl 命令 . 














sbull ioctl 方法 只 处 理 一 个 命令 个 对 设备 的 结构 的 请 求 : 





int sbull ioctl (struct inode *inode, struct file *filp, unsigned int cmd, unsigned long 
arg) 
{ 


long size; 
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struct hd geometry geo; 
struct sbull dev *dev = filp-Pprivate data; 


switch (cmd) 
{ 
case HDIO GETGEO: 
/* 
* Get geometry: since we are a virtual device, we have to make 
* up something plausible. So we claim 16 sectors, four heads, 
* and calculate the corresponding number of cylinders. We set the 
* start of data at sector four. 
*/ 
size = dev->sizek(hardsect size/KERNEL SECTOR SIZE); 
geo. cylinders = (size & "Ox3f) >> 6; 
geo. heads = 4; 
geo. sectors - 16; 
geo.start = 4; 
if (copy to user((void | user *) arg, &geo, sizeof(geo))) 
return -EFAULT; 
return 0; 


) 


return -ENOTTY; /* unknown command */ 


} 











提供 排列 信息 可 能 看 来 象 一 个 奇怪 的 任务 ， 因 为 我 们 的 设备 是 纯粹 虚拟 的 并 且 和 磁道 和 柱 
面 没 任何 关系 ， 甚 至 大 部 分 真正 的 块 硬件 都 已 很 多 年 不 再 有 很 多 更 复杂 的 结构 .内核 不 关 
心 一 个 块 设备 的 排列 ;只 把 它 看 作 一 个 局 区 的 线性 数组 但是， 有 某 些 用 户 工 具 仍 然 想 能 
够 查询 一 个 磁盘 的 排列 .特别 的 ，fdisk 工具 ， 它 编辑 分 区 表 ， 依 靠 柱 面 信息 并 且 如 果 这 
个 信息 没有 则 不 能 正确 工作 . 


















































我 们 希望 sbull 设备 是 可 分 区 的 ， 即 便 使 用 老 的 ， 简 单 的 工具 ， 因 此， 我 们 已 提供 了 一 
个 ioctl 方法 ， 这 个 方法 提供 了 一 个 可 靠 的 能 够 匹配 我 们 设备 容量 的 排列 的 假象 ， 大 部 
分 磁盘 驱动 做 类 似 的 事情 .注意 ， 象 通常 ， 遍 区 计数 被 转换 ， 如 果 需 要 ， 来 丐 配 内 核 使 用 
的 512- 字 节 的 惯例 . 


16. 3， 请 求 处 理 


每 个 块 驱动 的 核心 是 它 的 请 求 函数 ， 这 个 函数 是 真正 做 工作 的 地 方 一 或 者 至 少 开始 的 地 
方 ; 剩 下 的 都 是 开销 因此， 我 们 花 不 少时 间 来 看 在 块 驱 动 中 的 请 求 处 理 . 


















































一 个 人 磁盘 驱动 的 性 能 可 能 是 系统 整个 性 能 的 关键 部 分 ， 因 此 ， 内 核 的 块 子 系统 编写 时 在 性 
能 上 考虑 了 很 多 ; 它 做 所 有 可 能 的 事情 来 使 你 的 驱动 从 它 控 制 的 设备 上 获得 最 多 ， 这 是 一 
个 好 事情 ， 其 中 它 盲 目地 使 能 快速 I[/0， 男 一 方面 ， 块 子 系统 没 必要 在 驱动 API 中 曝露 
大 量 复杂 性 ， 有 可 能 编写 一 个 非常 简单 的 请 求 函 数 〈 我 们 将 很 快 见 到 )， 但 是 如 果 你 的 驱 
动 必 须 在 一 个 高 层次 上 操作 复杂 的 硬件 ， 它 可 能 是 任何 样子 . 


16. 3. 1， 对 请 求 方法 的 介绍 
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块 驱 动 的 请 求 方法 有 下 面 的 原型 : 








void request(request queue t *queue); 





这 个 函数 被 调用 ， 无 论 何 时 内 核 认 为 你 的 驱动 是 时 候 处 理 对 设备 的 读 ， 写 ， 或 者 其 他 操作 . 
请 求 函 数 在 返回 之 前 实际 不 需要 完成 所 有 的 在 队列 中 的 请 求 ; 实际 上 ， 它 可 能 不 完成 它们 
任何 一 个 ， 对 大 部 分 真实 设备 ， 它 必须 ， 但 是 ， 驱 动 这 些 请 求 并 且 确 保 它们 最 终 被 驱动 全 
部 处 理 . 























每 个 设备 有 一 个 请 求 队列 .这 是 因为 实际 的 从 和 到 磁盘 的 传输 可 能 在 远离 内 核 请 求 它们 时 
发 生 ， 并 且 因 为 内 核 需要 这 个 灵活 性 来 调度 每 个 传送 ， 在 最 好 的 时 刻 (将 影响 磁盘 上 邻近 
局 区 的 请 求 集合 到 一 起 ， 例 如 ). 并 且 这 个 请 求 函数 ， 你 可 能 记得 ， 和 一 个 请 求 队列 相关 ， 
当 这 个 队列 被 创建 时 ， 让 我 们 回顾 sbull 如 何 创建 它 的 队列 : 














dev->queue = blk init queue (Sbull request, &dev->lock); 








这 样 ， 当 这 个 队列 被 创建 时 ， 请 求 函 数 和 它 关 联 到 一 起 ， 我 们 还 提供 了 一 个 自 旋 锁 作 为 队 
列 创 建 过 程 的 一 部 分 ， 无 论 何 时 我 们 的 请 求 函数 被 调用 ， 内 核 持 有 这 个 锁 ， 结果， 请 求 函 
数 在 原子 上 下 文中 运行 ， 它 必须 遵循 所 有 的 5 章 讨论 过 的 原子 代码 的 通用 规则 . 








在 你 的 请 求 函数 持 有 锁 时 ， 队 列 锁 还 阻止 内 核 去 排队 任何 对 你 的 设备 的 其 他 请 求 ， 在 一 些 
条 件 下 ， 你 可 能 考虑 在 请 求 函数 运行 时 丢弃 这 个 锁 ， 如 果 你 这 样 做 ， 但 是 ， 你 必须 保证 不 
存 取 请 求 队列 ， 或 者 任何 其 他 的 被 这 个 锁 保 护 的 数据 结构 ， 在 这 个 锁 不 被 持 有 时 ， 你 必须 
重新 请 求 这 个 锁 ， 在 请 求 函 数 返回 之 前 . 











最 后 ， 请 求 函数 的 局 动 (常常 地 ) 与 任何 用 户 空间 进程 之 间 是 完全 异步 的 ， 你 不 能 假设 内 核 
运行 在 发 起 当前 请 求 的 进程 上 下 文 ， 你 不 知道 由 这 个 请 求 提 供 的 1/0 缓冲 是 否 在 内 核 或 
者 用 户 空 间 . 因此 任何 类 型 的 明确 存 取 用 户 空 间 的 操作 都 是 错误 的 并 且 将 肯定 引起 麻烦 . 
如 你 将 见 到 的 ， 你 的 驱动 需要 知道 的 关于 请 求 的 所 有 事情 ， 都 包含 在 通过 请 求 队列 传递 给 
你 的 结构 中 . 


16. 3. 2. 一 个 简单 的 请 求 方法 


sbull 例子 驱动 提供 了 几 个 不 同 的 方法 给 请 求 处 理 . 缺 省 地 ，spbul1l 使 用 一 个 方法 ， 称 为 
sbull _ request， 它 打算 作为 一 个 最 简单 地 请 求 方法 的 例子 ， 别 忙 ， 它 在 这 里 : 





















































static void sbull request(request queue t *q) 
{ 
struct request *req; 
while ((req = elv next request(q)) !- NULL) { 
struct sbull dev *dev = req-?rq disk-?private data; 
if (! blk fs request (req)) { 


printk (KERN NOTICE "Skip non-fs request in^); 
end request(req, 0); 
continue; 
} 
sbull transfer (dev, req-^sector, req-^current nr sectors, 
req—^buffer, rq data dir(req)); 
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end request(req, 1); 


} 





这 个 函数 介绍 了 struct request 结构 .我 们 之 后 将 详细 检查 struct request; 现在 ， 
只 需 说 它 表 示 一 个 我 们 要 执行 的 块 1/0 请 求 . 














内 核 提 供 函 数 elv next request 来 获得 队列 中 第 一 个 未 完成 的 请 求 ， 当 没有 请 求 要 被 处 
理 时 这 个 函数 返回 NULL， 注 意 elf next 不 从 队列 里 去 除 请 求 ， 如 果 你 连续 调用 它 2 次 ， 
它 2 次 都 返回 同一 个 请 求 结构 ， 在 这 个 简单 的 操作 模式 中 ， 请 求 只 在 它们 完成 时 被 剥离 
队列 . 














一 个 块 请 求 队列 可 包含 实际 上 不 从 磁盘 和 上 自 磁盘 移动 块 的 请 求 ， 这 些 请 求 可 包括 供应 商 特 
定 的 ， 低 层 的 诊断 操作 或 者 和 特殊 设备 模式 相关 的 指令 ， 例 如 给 可 记录 介质 的 报 文 写 模式 . 
大 部 分 块 驱动 不 知道 如 何 处 理 这 样 的 请 求 ， 并 且 人 简单 地 失败 它们 ; sbull 也 以 这 种 方式 工 
fF. 对 block fs request 的 调用 告诉 我 们 是 否 我 们 在 查看 一 个 文件 系统 请 求 -- 一 个 一 旦 
数据 块 的 ， 如 果 这 个 请 求 不 是 一 个 文件 系统 请 求 ， 我 们 传递 它 到 end request: 











void end request(struct request *req, int succeeded); 


当 我 们 处 理 了 非 文件 系统 请 求 ， 之 后 我 们 传递 succeeded 为 0 来 指示 我 们 没有 成 功 完 成 
这 个 请 求 . 否则 ， 我 们 调用 sbull transfer 来 真正 移动 数据 ， 使 用 一 套 在 请 求 结 构 中 提 
供 的 成 员 : 











sector t sector; 





Jf bob PER ER SI. ERSAK S, BAREEN EUCRIUK NE 
递 的 数目 ， 是 以 512-5 bpEeXecRHg. RREH — ^ A I8] FR XC 4], 
你 需要 相应 地 调整 局 区 ， 例如， 如 果 硬 件 是 2048- 字 节 的 而 区 ， 你 需要 用 4 来 除 
起 始 扇 区 号 ， 在 安放 它 到 对 硬件 的 请 求 之 前 . 




















unsigned long nr sectors; 





要 被 传送 的 扇 区 (512-56 13) 数目 . 
char *buffer; 


一 个 指向 缓冲 的 指针 ， 数 据 应 当 被 传送 到 或 者 从 的 缓冲 ， 这 个 指针 是 一 个 内 核 虚拟 
地 址 并 且 可 被 驱动 直接 解 引用 ， 如 果 需 要. 











rq data dir(struct request *req); 


这 个 宏 从 请 求 中 抽取 传送 的 方向 ; 一 个 0 返回 值 表示 从 设备 中 读 ， 非 0 返回 值 表 
示 写 入 设备 . 





有 了 这 个 信息 ，sbull 驱动 可 实现 实际 的 数据 传送 ， 使 用 一 个 简单 的 memcpy 调用 一 我 
们 数据 已 经 在 内 存 ， 毕 竟 ， 进行 这 个 拷贝 操作 的 函数 ( sbull_ transfer ) 也 处 理 扇 区 大 
小 的 调整 ， 并 确保 我 们 没有 拷贝 超过 我 们 的 虚拟 设备 的 尾 . 
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static void sbull transfer(struct sbull dev *dev, unsigned long sector, unsigned long 
nsect, char *buffer, int write) 
{ 
unsigned long offset = sectorxKERNEL_SECTOR_SIZE; 
unsigned long nbytes = nsect*KERNEL SECTOR SIZE; 
if ((offset + nbytes) > dev->size) 
{ 
printk (KERN NOTICE ^Beyond-end write (91d %ld)\n”, offset, nbytes); 
return; 
} 
if (write) 
memcpy (dev->data + offset, buffer, nbytes); 
else 
memcpy (buffer, dev->data + offset, nbytes); 


} 


用 这 个 代码 ，sbull 实现 了 一 个 完整 的 ， 简 单 的 基于 RAM 的 磁盘 设备 ， 但是， 对 于 很 多 
类 型 的 设备 ， 它 不 是 一 个 实际 的 驱动 ， 由 于 儿 个 理由 . 





这 些 原因 的 第 一 个 是 sbull 同步 执行 请 求 ， 一 次 一 个 ， 高 性 能 的 磁盘 设备 能 够 在 同时 有 
很 多 个 请 求 停 留 ; 磁盘 的 板 上 控制 器 因此 可 以 优化 的 顺序 (有 人 希望 ) 执 行 它们 ， 如 果 我 们 
只 处 理 队列 中 的 第 一 个 请 求 ， 我 们 在 给 定时 间 不 能 有 多 个 请 求 被 满足 ， 能 够 工作 于 多 个 请 
求 要 求 对 请 求 队列 和 请 求 结构 的 深入 理解 ， 下 面 儿 节 会 帮助 来 建立 这 种 理解 . 












































但 是 ， 有 另外 一 个 问题 要 考虑 ， 当 系统 进行 大 的 传输 ， 包 含 多 个 在 一 起 的 磁盘 扇 区 ， 就 获 
得 最 好 的 性 能 ， 磁 盘 操 作 的 最 高 开销 常常 是 读 写 头 的 定位 ; 一 旦 这 个 完成 ， 实 际 上 需要 的 
读 或 者 写 数据 的 时 间 几 乎 可 忽略 ， 设 计 和 实现 文件 系统 和 虚拟 内 存 子 系统 的 开发 者 理解 这 
点 ， 因 此 他 们 尽力 在 磁盘 上 连续 地 查找 相关 的 数据 ， 并 且 在 一 次 请 求 中 传送 尽 可 能 多 扇 区 ， 
鼎 子 系统 也 在 这 个 方面 起 作用 ; 请 求 队列 包含 大 量 逻辑 , 目的 是 找到 邻近 的 请 求 并 且 接 合 

它们 为 更 大 的 操作 . 






































sbull 三 动 ， 但 是 ， 采 取 所 有 这 些 工作 并 且 简单 地 忽略 它 ， 一 次 只 有 一 个 缓冲 被 传送 ， 意 
味 厦 最 大 的 单 次 传送 几乎 从 不 超过 单个 页 的 大 小 ， 一 个 块 驱动 能 做 的 比 那个 要 好 的 多 ， 但 
是 它 需 要 一 个 对 请 求 结构 和 bio 结构 的 更 深 的 理解 ， 请 求 是 从 它们 建立 的 . 


























下 面 儿 节 更 深入 地 研究 块 屋 如 何 完 成 它 的 工作 ， 已 经 这 些 工 作 导 致 的 数据 结构 . 
16. 3. 3， 请 求 队列 


最 简单 的 说 ， 一 个 块 请 求 队列 就 是 : 一 个 块 I/0 请 求 的 队列 ， 如 果 你 往 下 查看 ， 一 个 请 
求 队列 是 一 令 人 吃惊 得 复杂 的 数据 结构 .幸运 的 是 ， 驱 动 不 必 担心 大 部 分 的 复杂 性 . 














请 求 队 列 跟踪 等 候 的 块 I/0 请 求 ， 但 是 它们 也 在 这 些 请 求 的 创建 中 扮演 重要 角色 .请 求 队 
列 存储 参数 ， 来 描述 这 个 设备 能 够 支持 什么 类 型 的 请 求 : 它们 的 最 大 大 小 ， 多 少 不 同 的 段 
可 进入 一 个 请 求 ， 硬 件 扇 区 大 小 ， 对 齐 要 求 ， 等 等 ， 如 果 你 的 请 求 队列 被 正确 配置 了 ， 它 
应 当 从 不 交 给 你 一 个 你 的 设备 不 能 处 理 的 请 求 . 



































请 求 队列 还 实现 一 个 插入 接口 ， 这 个 接口 允许 使 用 多 1/0 调度 器 (或 者 电梯 )， 一 个 1/0 
调度 器 的 工作 是 提交 1/0 请 求 给 你 的 驱动 ， 以 最 大 化 性 能 的 方式 ， 为 此 ， 大 部 分 1/0 调 
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度 器 累积 批量 的 I/0 请 求 ， 排 列 它们 为 递增 (或 递减 ) 的 块 索引 顺序 ， 并 且 以 那个 顺序 提 

交 请 求 给 驱动 ， 磁头， 当 给 定 一列 排 序 的 请 求 时 ， 从 磁盘 的 一 头 到 妃 一 头 工 作 ， 非 常 象 一 
个 满载 的 电梯 ， 在 一 个 方向 移动 直到 所 有 它 的 “请求 “等待 出 去 的 人 ) 已 被 满足 ，2.6 内 核 
包含 一 个 “底线 调度 器 “， 它 努力 确保 每 个 请 求 在 预 设 的 最 大 时 间 内 被 满足 ， 以 及 一 个 “ 预 
测 调度 占 “， 它 实际 上 短暂 停止 设备 ， 在 一 个 预想 中 的 读 请 求 之 后 ， 这 样 男 一 个 邻近 的 读 
将 几乎 是 马上 到 达 ， 到 本 书 为 止 ， 缺 省 的 调度 器 是 预测 调度 器 ， 它 看 来 有 最 好 的 交互 的 系 
统 性 能 . 






































1/0 调度 器 还 负责 合并 邻近 的 请 求 ， 当 一 个 新 L/O 请 求 被 提交 给 调度 器 ， 它 在 队列 里 搜 
寻 包 含 邻 近 扇 区 的 请 求 ; 如 果 找 到 一 个 ， 并 且 如 果 结 果 的 请 求 不 是 太 大 ， 这 2 个 请 求 被 
合并 . 





请 求 队列 有 一 个 struct request queue 或 者 request queue t 类 型 ， 这 个 类 型 ， 和 许 
多 操作 它 的 函数 ， 定 义 在 《linux/blkdev. h>， 如 果 你 对 请 求 队列 的 实现 感 兴 趣 ， 你 可 找 
到 大 部 分 代码 在 drivers/block/1l rw block.c 和 elevator. c. 


16.3.3.1. 队列 的 创建 和 删除 





如 同 我 们 在 我 们 的 例子 代码 中 见 到 的 ， 一 个 请 求 队列 是 一 个 动态 的 数据 结构 ， 它 必须 被 块 
1/0 子 系统 创建 ， 这 个 创建 和 初始 化 一 个 队列 的 函数 是 : 








request queue t *blk init queue(request fn proc *request, spinlock t *lock); 


当然 ， 参 数 是 ， 这 个 队列 的 请 求 函数 和 一 个 控制 对 队列 存 取 的 自 旋 锁 ， 这 个 函数 分 配 内 存 
(实际 上 ， 不 少 内存 ) 并 且 可 能 失败 因为 这 个 ; 你 应 当 一 直 检查 返回 值 ， 在 试图 使 用 这 个 队 
列 之 前 








作为 初始 化 一 个 请 求 队列 的 一 部 分 ， 你 可 设置 成 员 queuedata( 它 是 一 个 void * 指针 ) 
为 任何 你 喜欢 的 值 ， 这 个 成 员 是 请 求 队列 的 对 于 我 们 在 其 他 结构 中 见 到 的 private data 
的 对 等 体 . 








为 返回 一 个 请 求 队列 给 系统 (在 模块 外 载 时 间 ， 通 常 )， 调 用 blk cleanup queue: 








void blk cleanup queue(request queue t *); 





这 个 调用 后 ， 你 的 驱动 从 给 定 的 队列 中 不 再 看 到 请 求 , 并 且 不 应 当 再 次 引用 它 ， 
16.3.3.2. 排队 函数 





有 非常 少 的 函数 来 操作 队列 中 的 请 求 一 至 少 ， 考 虑 到 了 驱动。 你 必须 持 有 队列 锁 ， 在 你 调 
用 这 些 函 数 之 前 . 








返回 要 处 理 的 下 一 个 请 求 的 函数 是 elv next request: 





struct request *elv next request(request queue t *queue); 
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我 们 已 经 在 简单 的 sbull 例子 中 见 到 这 个 函数 ， 它 返回 一 个 指向 下 一 个 要 处 理 的 请 求 的 
AFCE L/O 调度 器 所 决定 的 ) 或 者 NULL 如 果 没 有 请 求 要 处 理 ，elv_next_request HiX 
个 请 求 在 队列 上 ， 但 是 标识 它 为 活动 的 ; 这 个 标识 阻止 了 I/0 调度 器 试图 合并 其 他 的 请 
求 到 这 些 你 开始 执行 的 . 























为 实际 上 从 一 个 队列 中 去 除 一 个 请 求 ， 使 用 blkdev_dequeue request: 
void blkdev dequeue request(struct request *req); 


如 果 你 的 驱动 同时 从 同一 个 队列 中 操作 多 个 请 求 ， 它 必须 以 这 样 的 方式 将 它们 解 出 队列 . 

















如 果 你 由 于 同样 的 理由 需要 放置 一 个 出 列 请 求 回 到 队列 中 ， 你 可 以 调用 : 





void elv requeue request (request queue t *queue, struct request *req); 


16.3.3.3. 队列 控制 函数 





块 层 输出 了 一 套 函 数 ， 可 被 驱动 用 来 控制 一 个 请 求 队列 如 何 操作 .这 些 函 数 包括 : 


void blk stop queue(request queue t *queue); 
void blk start queue(request queue t *queue); 











如 果 你 的 设备 已 到 到 达 一 个 状态 ， 它 不 能 处 理 等 候 的 命令 ， 你 可 调用 

blk stop queue 来 告知 块 层 ， 在 这 个 调用 之 后 ， 你 的 请 求 函数 将 不 被 调用 直到 你 
调用 blk start queue. 不 用 说 ， 你 不 应 当 访 记 重 启 队 列 ， 当 你 的 设备 可 处 理 更 多 
请 求 时 ， 队 列 锁 必须 被 持 有 当 调 用 任何 一 个 这 些 函 数 时 . 








void blk queue bounce limit(request queue t *queue, u64 dma addr); 





告知 内 核 你 的 设备 可 进行 DMA 的 最 高 物理 地 址 的 函数 . 如 果 一 个 请 求 包 含 一 个 超 
出 这 个 限制 的 内 存 引 用 ， 一 个 反弹 缓冲 将 被 用 来 给 这 个 操作 ; 当然 ， 这 是 一 个 进行 
H 1/0 的 昂贵 方式 ， 并 且 应 当 尽 量 避 免 ， 你 可 在 这 个 参数 中 提供 任何 可 能 的 值 ， 
或 者 使 用 预先 定义 的 符号 BLK BOUNCE _HIGH( 使 用 反弹 缓冲 给 高 内 存 页 )， 

BLK BOUNCE ISA (驱动 只 可 DMA 到 16MB 的 ISA 区 )， 或 者 BLK BOUCE ANY (驱动 
可 进行 DMA 到 任何 地 址 )， 缺 省 值 是 BLK BOUNCE HIGH. 





























void blk queue max sectors (request queue t *queue, unsigned short max); 
void blk queue max phys segments (request queue t *queue, unsigned short max); 





void blk queue max hw segments (request queue t *queue, unsigned short max); 





void blk queue max segment size(request queue t *queue, unsigned int max); 


设置 参数 的 函数 ， 这 些 参数 描述 可 被 设备 满足 的 请 求 . blk queue max 可 用 来 以 扇 
区 方式 设置 任 一 请 求 的 最 大 的 大 小 ; 缺 省 是 255. blk queue max phys segments 
和 blk queue max hw segments 都 控制 多 少 物 理 段 (系统 内 存 中 不 相 邻 的 区 ) 可 包 
含 在 一 个 请 求 中 ， 使 用 blk queue max phys segments 来 说 你 的 驱动 准备 处 理 多 
少 段 ; 例如 ， 这 可 能 是 一 个 静态 分 配 的 散布 表 的 大 小 . 

blk queue max hw segments， 相 反 ， 是 设备 可 处 理 的 最 多 的 段 数 ,这 2 个 参数 缺 
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省 都 是 128. fx), blk queue max segment size 告知 内 核 任 一 个 请 求 的 段 可 能 
是 多 大 字 节 ; 缺 省 是 65,536 FW. 


blk queue segment boundary (request queue t *queue, unsigned long mask); 














一 些 设备 无 法 处 理 跨越 一 个 特殊 大 小 内 存 边 界 的 请 求 ; 如 果 你 的 设备 是 其 中 之 一 ， 
使 用 这 个 函数 来 告知 内 核 这 个 边界 ， 例如， 如 果 你 的 设备 处 理 跨 4-MB 边界 的 请 求 
有 困难 ， 传 递 一 个 0x3fffff 手 码 ， 缺 省 的 掩 码 是 Oxffffffff. 











void blk queue dma alignment(request queue t *queue, int mask); 


告知 内 核 关 于 你 的 设备 施加 于 DMA 传送 的 内 存 对 齐 限制 的 函数 ， 所 有 的 请 求 被 创 
建 有 给 定 的 对 齐 ， 并 且 请 求 的 长 度 也 匹配 这 个 对 齐 .， 缺 省 的 掩 码 是 0x1ff， 它 导致 
所 有 的 请 求 被 对 齐 到 512- 字 节 边 界 . 








void blk queue hardsect size(request queue t *queue, unsigned short max); 


告知 内 核 你 的 设备 的 硬件 扇 区 大 小 ， 所 有 由 内 核 产 生 的 请 求 是 这 个 大 小 的 倍数 并 且 
被 正确 对 齐 . 所 有 的 在 块 层 和 驱动 之 间 的 通讯 继续 以 512- 字 节 扇 区 来 表达 ， 但 是 . 


16. 3. 4， 请 求 的 分 析 


在 我 们 的 简单 例子 里 ， 我 们 遇 到 了 这 个 请 求 结构 ， 但 是， 我 们 未 曾 接 触 这 个 复杂 的 数据 结 
H. 在 本 节 ， 我 们 看 ， 详 细 地 ， 块 1/0 请 求 在 Linux 内 核 中 如 何 被 表示 . 



































每 个 请 求 结构 代表 一 个 块 1/0 请 求 ， 尽 管 它 可 能 是 由 儿 个 独立 的 请 求 在 更 高 层次 合并 而 
成 ， 对 任何 特殊 的 请 求 而 传送 的 扇 区 可 能 分 布 在 整个 主 内 存 ， 尽 管 它们 第 常 对 应 块 设备 中 
的 多 个 连续 的 鹿 区 ， 这 个 请 求 被 表示 为 多 个 段 ， 每 个 对 应 一 个 内 存 中 的 缓冲 ， 内 核 可 能 合 
并 多 个 涉及 磁盘 上 邻近 扇 区 的 请 求 ， 但 是 它 从 不 合并 在 单个 请 求 结 构 中 的 读 和 写 操 作 ， 内 
核 还 确保 不 合并 请 求 ， 如 果 结 果 会 破坏 任何 的 在 前 面 章节 中 描述 的 请 求 队列 限制 , 


















































基本 上 ， 一 个 请 求 结构 被 实现 为 一 个 bio 结构 的 链表 ， 结 合 一 些 维护 信息 来 使 驱动 可 以 
跟踪 它 的 位 置 ， 当 它 在 完成 这 个 请 求 中 .这 个 bio 结构 是 一 个 块 1/0 请 求 移植 的 低级 描 
述 ; 我 们 现在 看 看 它 . 






































16.3.4.1. bio 结构 


当 内 核 ， 以 一 个 文件 系统 的 形式 ， 虚 拟 文件 子 系统 ， 或 者 一 个 系统 调用 ， 决 定 一 组 块 必须 
传送 到 或 从 一 个 块 1/0 设备 ; 它 装配 一 个 bio 结构 来 描述 那个 操作 ， 那 个 结构 接着 被 弟 
给 这 个 块 1/0 代码 ， 这 个 代码 合并 它 到 一 个 存在 的 请 求 结构 ， 或 者 ， 如 果 需 要 ， 创 建 一 
个 新 的 ， 这 个 bio 结构 包含 一 个 块 驱动 需要 来 进行 请 求 的 任何 东西 ， 而 不 必 涉及 使 这 个 
请 求 启动 的 用 户 空间 进程 






























































bio 结构 ， 在 《linux/bio.h> 中 定义 ， 包 含 许多 成 员 对 驱动 作者 是 有 用 的 : 





sector t bi sector; 
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这 个 bio 要 被 传送 的 第 一 个 (512 FI) K 





unsigned int bi size; 


被 传送 的 数据 大 小 ， 以 字 节 计 ， JH A EEH bio_sectors (bio)， 一 个 给 
XE E DEVE ANZ. 


unsigned long bi flags; 








一 组 描述 bio 的 标志 ; 最 低 有 效 位 被 置 位 如 果 这 是 一 个 写 请 求 ( 尽 管 宏 
bio data dir (bio) 应 当 用 来 代 蔡 直接 加 锁 这 个 标志 











unsigned short bio phys segments; 
unsigned short bio hw segments; 


包含 在 这 个 BIO 中 的 物理 段 的 数目 ， 和 在 DMA 映射 完成 后 被 硬件 看 到 的 段 数目 ， 
分 别 地 . 








一 个 bio 的 核心 ， 但 是 ， 是 一 个 称 为 bi io vec 的 数组 ， 它 由 下 列 结构 组 成 : 


struct bio vec { 

struct page -*bv page; 
unsigned int bv len; 
unsigned int bv offset; 


Jz 


bio 结构 显示 了 这 些 结 lo en 起 ， 如 同 你 所 见 到 的 ， 在 一 个 块 1/0 请 求 被 转 
换 为 一 个 bio 结构 后 ， 它 已 被 分 为 单独 的 物理 内 存 页 ， 所 有 的 一 个 驱动 需要 做 的 事情 是 
步 进 全 部 这 个 结构 数组 (它们 有 bi vent 个 )， 和 在 每 个 页 内 传递 数据 (但 是 只 len 字 节 ， 
从 offset 开始 ). 


























图 16.1. bio 结构 





struct bio struct bio_vec 
bi, next bw =j 
bi 1o. ve 
struct bio ve 
as JL 
struct bio r 
1 


bi, next 
bi jo vec struct bio «J| 
by page 
ue Lr memory map 


直接 使 用 bi io vec 数组 不 被 推荐 ， 为 了 内 核 开 发 者 可 以 在 以 后 改变 bio 结构 而 不 会 引 
起 破坏 .为 此 ， 一 组 宏 被 提供 来 简化 使 用 bio 结构 . 开始 的 地 方 是 

bio for each segment， 它 简单 地 循环 bi io vec 数组 中 每 个 未 被 处 理 的 项 ， 这 个 宏 应 
当 如 下 用 : 
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int segno; 
struct bio vec **bvec; 


bio for each segment(bvec, bio, segno) { 
/* Do something with this segment 


} 


在 这 个 循环 中 ，bvec 指向 当前 的 bio vec 项， 并且 segno 是 当前 的 段 号 ， 这 些 值 可 被 
用 来 设置 DMA 发 送 器 (一 个 使 用 blk rq map sg 的 蔡 代 方法 在 ” 块 请 求 和 DMA” 一 节 中 描 
述 ) .如果 你 需要 直接 存 取 页 ， 你 应 当 首先 确保 一 个 正确 的 内 核 虚拟 地 址 存在 ; 为 此 ， 你 
可 使 用 : 
































char * bio kmap atomic(struct bio *bio, int i, enum km type type); 
void bio kunmap atomic(char *buffer, enum km type type); 


这 个 底层 的 函数 允许 你 直接 映射 在 一 个 给 定 的 bio vec 中 找到 的 缓冲 ， 由 索引 i 所 指定 
的 ， 一 个 原子 的 kmap 被 创建 ; 调用 者 必须 提供 合适 的 来 使 用 的 槽 位 (如同 在 15 章 的 ?内 
存 映 射 和 struct page” 一 节 中 描述 的 ). 




















块 层 还 维护 一 组 位 于 bio 结构 的 指针 来 跟踪 请 求 处 理 的 当前 状态 ， 几 个 宏 来 提供 对 这 个 
状态 的 存 取 : 





struct page *bio page(struct bio *bio); 





返回 一 个 指向 页 结构 的 指针 ， 表 示 下 一 个 被 传送 的 页 . 
int bio offset(struct bio *bio); 
返回 页 内 的 被 传送 的 数据 的 偏 移 . 


int bio cur sectors (struct bio *bio); 





is |n EE RUP 3 HR 2 mj EIS e DC. 
char *bio data(struct bio *bio); 


返回 一 个 内 核 逻 辑 地 址 ， 指 向 被 传送 的 数据 .注意 这 个 地 址 可 用 仪 当 请 求 的 页 不 在 
高 内 存 中 ; 在 其 他 情况 下 调用 它 是 一 个 错误 ， 缺 省 地 ， 块 子 系统 不 传递 高 内 存 缓冲 
到 你 的 驱动 ， 但 是 如 果 你 已 使 用 blk queue bounce limit 改变 设置 ， 你 可 能 不 该 
使 用 bio data. 














char *bio kmap irq(struct bio *bio, unsigned long *flags); 
void bio kunmap irq(char *buffer, unsigned long *flags); 








bio kmap irq 给 任何 缓冲 返回 一 个 内 核 虚拟 地 址 ， 不 管 它 是 否 在 高 或 低 内 存 ， 一 
个 原子 kmap 被 使 用 ， 因 此 你 的 三 动 在 这 个 映射 被 激活 时 不 能 睡眠 ， 使 用 

bio kunmap irq 来 去 映射 缓冲 ， 注 意 因 为 使 用 一 个 原子 kmap， 你 不 能 一 次 映射 多 
TTE 
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刚刚 描述 的 所 有 函数 都 存 取 当 前 缓冲 -- 还 未 被 传送 的 第 一 个 缓冲 ， 只 要 内 核 知 道 . 驱动 
常常 想 使 用 bio 中 的 儿 个 缓冲 ， 在 它们 任何 一 个 指出 完成 之 前 (使 用 
end that request _first， 马 上 就 讲 到 )， 因 此 这 些 函 数 常常 没有 用 .， 几 个 其 他 的 宏 存在 
来 使 用 bio 结构 的 内 部 接口 (详情 见 《linux/bio. h>). 


16.3.4.2. 请 求 结 构成 员 









































现在 我 们 有 了 bio 结构 如 何 工作 的 概念 ， 我 们 可 以 深入 struct request 并 且 看 请 求 处 
理 如 何 工作 .这 个 结构 的 成 员 包 括 : 








sector t hard sector; 
unsigned long hard nr sectors; 
unsigned int hard cur sectors; 








追踪 请 求 便 件 完 成 的 扇 区 的 成 员 ， 第 一 个 尚未 被 传送 的 扇 区 被 存储 到 hard. sector, 
已 经 传送 的 局 区 总 数 在 hard_nr_sectors， 并 且 在 当前 bio PRR HI S KAGE 
hard cur sectors. 这 些 成 员 打 算 只 用 在 块 子 系统 ; 驱动 不 应 当 使 用 它们 . 








struct bio **bio; 





bio 是 给 这 个 请 求 的 bio 结构 的 链表 .你 不 应 当 直 接 存 取 这 个 成 员 ; 使 用 
rq for each bio( 后 面 描述 ) RE. 








char *buffer; 








在 本 半 前 面 的 简单 驱动 例子 使 用 这 个 成 员 来 找到 传送 的 缓冲 ， 随 着 我 们 的 深入 理解 ， 
我 们 现在 可 见 到 这 个 成 员 仅仅 是 在 当前 bio 上 调用 bio data 的 结果 . 











unsigned short nr phys segments; 








被 这 个 请 求 在 物理 内 存 中 占用 的 独特 段 的 数目 ， 在 邻近 页 已 被 合并 后 . 








struct list head queuelist; 











链表 结构 (如 同 在 11 章 中 “链表 “一 节 中 描述 的 )， 连接 这 个 请 求 到 请 求 队列 . 如 果 
(并 且 只 是 ) 你 从 队列 中 去 除 blkdev_dequeue_request， 你 可 能 使 用 这 个 列表 头 来 
跟踪 这 个 请 求 ， 在 一 个 被 你 的 驱动 维护 的 内 部 列表 中 . 














图 带 有 一 个 部 分 被 处 理 的 请 求 的 请 求 队列 展示 了 请 求 队列 和 它 的 组 件 bio 结构 如 
ma 起 ， 在 图 中 ， 这 个 请 求 已 被 部 分 满足 cbio 和 buffer 处 于 指向 尚未 传送 的 


第 一 个 bio. 





图 16. 2， 一 个 带 有 一 个 部 分 被 处 理 的 请 求 的 请 求 队列 


417 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu,Fedora,SUSEL] O O O 0O IO 0O O Linux[] D] E] UE [] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 









. Memory 
bio 
bi io vec mi. 
D. bi next 
bio 
bi next 
struct request ii 
- bi next i i 
queuelist = 




















有 许多 不 同 的 字段 在 请 求 结构 中 ， 但 是 本 节 中 的 列表 应 当 对 大 部 分 驱动 编写 者 是 足够 的 . 


16.3.4.3. 屏障 请 求 








块 层 在 你 的 驱动 见 到 它们 之 前 重新 排序 来 提高 1/0 性 能 .你 的 驱动 ， 也 可 以 重新 排序 请 
求 ， 如 果 有 理由 这 样 做 ， 常 常 地 ， 这 种 重新 排序 通过 传递 多 个 请 求 到 驱动 并 且 使 硬件 考虑 
优化 的 顺序 来 实现 ， 但 是 ， 对 于 不 严格 的 请 求 顺序 有 一 个 问题 : 有些 应 用 程序 要 求 保证 茶 
些 操作 在 其 他 的 局 动 前 完成 ， 例 如 ， 关 系数 据 库 管 理 者 ， 必 须 绝 对 确保 它们 的 日 志 信 息 刷 
新 到 驱动 器 ， 在 执行 在 数据 库 内 容 上 的 一 次 交易 之 前 日志 式 文 件 系 统 ， 现 在 在 大 部 分 

Linux 系统 中 使 用 ， 有 非常 类 似 的 排序 限制 ， 如果 错 误 的 操作 被 重新 排序 ， 结 果 可 能 是 严 
重 的 ， 无 法 探测 的 数据 破坏 . 


















































2.6 块 层 解决 这 个 问题 通过 一 个 屏障 请 求 的 概念 如果 一 个 请 求 被 标识 为 

REQ HARDBARRER 标志 ， 它 必须 被 写 入 驱动 器 在 任何 后 续 的 请 求 被 初始 化 之 前 . “被 写 入 设 
备 “， 我 们 意思 是 数据 必须 实际 位 于 并 且 是 持久 的 在 物理 介质 中 ， 许 多 的 驱动 器 进行 写 请 
求 的 缓存 ， 这 个 缓存 提高 了 性 能 ， 但 是 它 可 能 使 屏障 请 求 的 目的 失败 . 如 果 一 个 电力 失效 
在 关键 数据 仍然 在 驱动 器 的 缓存 中 时 发 生 ， 数 据 仍 然 被 丢失 即便 驱动 器 报告 完成 ， 因 此 一 
个 实现 屏障 请 求 的 驱动 器 必须 采取 步骤 来 强制 驱动 器 真正 写 这 些 数 据 到 介质 中 ， 



































如 果 你 的 驱动 器 尊敬 屏障 请 求 ， 第 一 步 是 通知 块 层 这 个 事实 . 屏障 处 理 是 男 一 个 请 求 队列 ; 
它 被 设置 为 : 





void blk queue ordered(request queue t *queue, int flag); 





为 指示 你 的 驱动 实现 了 屏障 请 求 ， 设 置 flag 参数 为 一 个 非 零 值 . 

















实际 的 屏障 请 求实 现 是 简单 地 测试 在 请 求 结构 中 关联 的 标志 .已 经 提供 了 一 个 宏 来 进行 这 
个 测试 : 
人 测试 : 


int blk barrier rq(struct request *req); 
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如 果 这 个 宏 返 回 一 个 非 零 值 ， 这 个 请 求 是 一 个 屏障 请 求 ， 根 据 你 的 硬件 如 何 工 作 ， 你 可 能 
必须 停止 从 队列 中 获取 请 求 ， 直 到 屏障 请 求 已 经 完成 ， 另 外 的 驱动 器 能 理解 屏障 请 求 ; 在 
这 个 情况 中 ， 你 的 驱动 所 有 的 必须 做 的 是 对 这 些 驱动 器 发 出 正确 的 操作 . 


16.3.4.4. 不 可 重 入 请 求 















































块 驱动 常 弟 试 图 重 试 第 一 次 失败 的 请 求 ， 这 个 做 法 可 产生 一 个 更 加 可 靠 的 系统 并 且 帮 助 来 
避免 数据 丢失 .， 内核， 但 是 ， 有 了 时 标识 请 求 为 不 可 重 入 的 ， 这 样 的 请 求 应 当 完 全 尽快 失败 ， 
如 果 它 们 无 法 在 第 一 次 试 的 时 候 执 行 . 











如 果 你 的 驱动 在 考虑 重 试 一 个 失败 的 请 求 ， 他 应 当 首 先 调用 : 


int blk noretry request(struct request *req); 





如 果 这 个 宏 返 回 非 零 值 ， 你 的 驱动 应 当 放 弃 这 个 请 求 ， 使 用 一 个 错误 码 来 代替 重 试 它 . 
16. 3. 5， 请 求 完成 函数 
如 同 我 们 将 见 到 的 ， 有 几 个 不 同 的 方式 来 使 用 一 个 请 求 结构 . 它们 所 有 的 都 使 用 几 个 通用 


的 函数 ， 但 是 ， 它 们 处 理 一 个 1/0 请 求 或 者 部 分 请 求 的 完成 .这 2 个 函数 都 是 原子 的 并 
且 可 从 一 个 原子 上 下 文 被 安全 地 调用 . 














当 你 的 设备 已 经 完成 传送 一 些 或 者 全 部 扇 区 ， 在 一 个 1/0 请 求 中 ， 它 必须 通知 块 子 系统 ， 
使 用 : 








int end that request first(struct request *req, int success, int count); 


这 个 函数 告知 块 代码 ， 你 的 驱动 已 经 完成 count 个 扇 区 地 传送 ， 从 你 最 后 留 下 的 地 方 开 
始 . 如 果 1/0 是 成 功 的 ， 传 递 success 为 1; 否则 传递 0. 注意 你 必须 指出 完成 ， 按 照 
从 第 一 个 硬 区 到 最 后 一 个 的 顺序 ; 如 果 你 的 驱动 和 设备 有 些 共 谋 来 乱 序 完成 请 求 ， 你 必须 
存储 这 个 乱 序 的 完成 状态 直到 介入 的 扇 区 已 经 被 传递 . 




















从 end that request first 的 返回 值 是 一 个 指示 ， 指 示 是 否 所 有 的 这 个 请 求 中 的 扇 区 已 
经 被 传送 或 者 没有 .一 个 0 返回 值 表示 所 有 的 扇 区 已 经 被 传送 并 且 这 个 请 求 完 成 ， 在 这 
点 ， 你 必须 使 用 blkdev dequeue request 来 从 队列 中 解除 请 求 ( 如 果 你 还 没有 这 样 做 ) 并 
且 传递 它 到 : 

















void end that request last(struct request *reqg); 


end that request last 通知 任何 在 等 待 这 个 请 求 的 人 ， 这 个 请 求 已 经 完成 并 且 回 收 这 个 
请 求 结构 ; 它 必 须 在 持 有 队列 锁 时 被 调用 . 








在 我 们 的 简单 的 sbull 例子 里 ， 我 们 不 使 用 任何 上 面 的 函数 . 相反， 那个 例子 ， 被 称 为 
end request. 为 显示 这 个 调用 的 效果 ， 这 里 有 整个 的 end request 函数 ， 如 果 在 
2.6.10 内 核 中 见 到 的 : 


void end request (struct request *req, int uptodate) 
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if (lend that request first(req, uptodate, req-^hard cur sectors)) { 
add disk randomness(req-^rq disk); 

blkdev dequeue request (req) ; 

end that request last(reg); 

} 
} 





函数 add disk randomness 使 用 块 1/0 请 求 的 定时 来 贡献 粹 给 系统 的 随机 数 池 ; 它 应 当 
被 调用 仅 当 磁盘 的 定时 是 真正 的 随机 的 ， 对 大 部 分 的 机 械 设 备 这 是 真 的 ， 但 是 对 一 个 基于 
内 存 的 虚拟 设备 它 不 是 真 的 ， 例 如 sbull. 因此 ， 下 一 节 中 更 复杂 的 sbull 版 本 不 调用 


add disk randomness. 








16.3.5.1. 使 用 bio 








现在 你 了 解 了 足够 多 的 来 编写 一 个 块 驱动 ， 可 直接 使 用 组 成 一 个 请 求 的 bio 结构 ， 但 是 ， 
个 例子 可 能 会 有 帮助 . 如果 这 个 sbull 驱动 被 加 载 为 request_mode 参数 被 设 为 1， 
它 注册 一 个 知道 bio 的 请 求 函数 来 代替 我 们 上 面 见 到 的 简单 函数 .那个 函数 看 来 如 此 : 








static void sbull full request (request queue t **q) 
{ 

struct request *req; 

int sectors xferred; 

struct sbull dev *dev = q-»5queuedata; 

while ((req = elv next request(q)) !- NULL) { 

if (! blk fs request (req)) { 
printk (KERN NOTICE “Skip non-fs request n^); 


end request(req, 0); 
continue; 
} 
sectors xferred = sbull xfer request (dev, req); 
if (! end that request first(req, 1, sectors xferred)) { 
blkdev dequeue request (req) ; 
end that request last(reg); 


} 





这 个 函数 简单 地 获取 每 个 请 求 ， 传 递 它 到 sbull xfer request， 接 着 使 用 
end that request first 和 ， 如 果 需 要 ，end that request last 来 完成 它 ， 因此， 这 
个 函数 在 处 理 高 级 队列 并 且 请 求 管理 部 分 问题 ， 真正 执行 一 个 请 求 的 工作 ， 但 是 ， 落 入 


sbull xfer request: 

















static int sbull xfer request(struct sbull dev *dev, struct request *req) 
{ 

struct bio *bio; 

int nsect = 0; 


rq for each bio(bio, req) 
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sbull xfer bio(dev, bio); 
nsect += bio-»bi size/KERNEL SECTOR SIZE; 


return nsect; 


} 


这 里 我 们 介绍 另 一 个 宏 : rq for each bio， 如 同 你 可 能 期 望 的 ， 这 个 宏 简单 地 步 入 请 求 
中 的 每 个 bio 结构 ， 给 我 们 一 个 可 传递 给 sbull xfer bio 用 于 传输 的 指针 ， 那 个 函数 
看 来 如 此 : 





static int sbull xfer bio(struct sbull dev *dev, struct bio *bio) 
| 

int 1; 

struct bio vec *bvec; 

sector t sector = bio->bi sector; 


/* Do each segment independently. */ 
bio for each segment(bvec, bio, i) 


{ 
char *buffer = bio kmap atomic(bio, i, KM USERO); 
sbull transfer(dev, sector, bio cur sectors(bio), 


buffer, bio data dir(bio) == WRITE); 
sector += bio cur sectors (bio); 
J bio kunmap atomic(bio, KM USERO); 


} 
return 0; /* Always “succeed” */ 


} 


这 个 函数 简单 地 步 入 每 个 bio 结构 中 的 段 ， 获 得 一 个 内 核 虚拟 地 址 来 存 取 绥 冲 ， 接 着 调 
用 之 前 我 们 见 到 的 同样 的 sbull transfer 函数 来 拷贝 数据 . 








每 个 设备 有 它 目 己 的 需要 ， 但 是 ， 作 为 一 个 通用 的 规则 ， 刚 刚 展示 的 代码 应 当 作 为 一 个 模 
型 ， 给 许多 的 需要 深入 bio 结构 的 情形 . 








16.3.5.2. 块 请 求 和 DMA 


如 果 你 工作 在 一 个 高 性 能 块 驱动 上 ， 你 有 机 会 使 用 DMA 来 进行 真正 的 数据 传输 ， 一 个 块 
驱动 当然 可 步 入 bio 结构 ， 如 同上 面 描述 的 ， 为 每 一 个 创建 一 个 DMA 映射 ， 并 且 传 递 结 
构 给 设备 ， 但 是 ， 有 一 个 更 容易 的 方法 ， 如 果 你 的 驱动 可 进行 发 散 /汇聚 TI/0， 函 数 : 




















int blk rq map sg(request queue t *queue, struct request *req, struct scatterlist *list); 














使 用 来 自给 定 请 求 的 全 部 段 填充 给 定 的 列表 .内 存 中 邻近 的 段 在 插入 散布 表 之 前 被 接合 ， 
因此 你 不 需要 自己 探测 它们 . 返回 值 是 列表 中 的 项 数 ， 这 个 函数 还 回 传 ， 在 它 第 3 个 参 
数 ， 一 个 适合 传递 给 dma_map_sg 的 散布 表 . (关于 dma map se 的 更 多 信息 见 15 章 的 ” 
发 散 -汇聚 映射 “一 节 ). 
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你 的 驱动 必须 在 调用 blk rq map sg 之 前 给 散布 表 分 配 存储 . 这 个 列表 必须 能 够 至 少 持 
有 这 个 请 求 有 的 物理 段 那么 多 的 项 ; struct request 成 员 nr phys segments 持 有 那个 
数量 ， 它 不 能 超过 由 blk_queue_max_phys_segments 指定 的 物理 段 的 最 大 数目 . 


























如 果 你 不 想 blk rq map sg 来 接合 邻近 的 段 ， 你 可 改变 这 个 缺 省 的 行为 ， 使 用 一 个 调用 
诸如 : 





clear bit(QUEUE FLAG CLUSTER, &queue->queue flags); 
一 些 SCSI 磁盘 驱动 用 这 样 的 方式 标识 它们 的 请 求 队 列 ， 因 为 它们 没有 从 接合 请 求 中 获 益 . 


16.3.5.3. 不 用 一 个 请 求 队列 


前 面 ， 我 们 已 经 讨论 了 内 核 所 作 的 在 队列 中 优化 请 求 顺序 的 工作 ; 这 个 工作 包括 排列 请 求 
和 和， 或许， 甚至 延迟 队列 来 允许 一 个 预期 的 请 求 到 达 ， 这 些 技 术 在 处 理 一 个 真正 的 旋转 的 
人 磁盘 驱动 器 时 有 助 于 系统 的 性 能 .但 是 ， 使 用 一 个 象 sbull 的 设备 它们 是 完全 浪费 了 . 
许多 面向 块 的 设备 ， 例 如 闪存 阵列 ， 用 于 数字 相机 的 存储 卡 的 读 取 器 ， 并 且 RAM SERIE 
地 有 随机 存 取 的 性 能 ， 包 含 从 高 级 的 请 求 队列 逻辑 中 获 益 ， 其 他 设备 ， 例 如 软件 RAID 阵 
列 或 者 被 逻辑 卷 管理 者 创建 的 虚拟 磁盘 ， 没 有 这 个 块 层 的 请 求 队列 被 优化 的 性 能 特征 ， 对 
于 这 类 设备 ， 它 最 好 直接 从 块 层 接 收 请 求 ， 并 且 根 本 不 去 烦请 求 队列 






































对 于 这 些 情况 ， 块 层 文 持 无 队列 的 操作 模式 .为 使 用 这 个 模式 ， 你 的 驱动 必须 提供 一 个 
“制作 请 求 “ 函 数 ， 而 不 是 一 个 请 求 沙 数 . make_request 函数 有 这 个 原型 : 


typedef int (make request fn) (request queue t *q, struct bio *bio); 








注意 一 个 请 求 队列 仍然 存在 ， 即 便 它 从 不 会 真正 有 任何 请 求 . make_request 函数 用 一 个 
bio 结构 作为 它 的 主要 参数 ， 这 个 bio 结构 表示 一 个 或 多 个 要 传送 的 缓冲 . 
make request PEZ 2 个 事情 之 一 : 它 可 或 者 直接 进行 传输 ， 或 者 重 定 向 这 个 请 求 到 另 


一 个 设备 . 






































直接 进行 传送 只 是 使 用 我 们 前 面 描述 的 存 取 者 方法 来 完成 这 个 bio. 因为 没有 使 用 请 求 结 
构 ， 但 是 ， 你 的 函数 应 当 通 知 这 个 bio 结构 的 创建 者 直接 指出 完成 ， 使 用 对 bio endio 
的 调用 : 














void bio endio(struct bio *bio, unsigned int bytes, int error); 


XE, bytes 是 你 至 今 已 经 传送 的 字 节 数 ， 它 可 小 于 由 这 个 bio 整体 所 代表 的 字 节 数 ; 
在 这 个 方式 中 ， 你 可 指示 部 分 完成 ， 并 且 更 新 在 bio 中 的 内 部 的 “当前 缓冲 指针， 你 应 
当 再 次 调用 bio_endio 在 你 的 设备 进行 进一步 处 理 时 ， 或 者 当 你 不 能 完成 这 个 请 求 指出 
一 个 错误 ， 错 误 是 通过 提供 一 个 非 零 值 给 error 参数 来 指示 的 ;这 个 值 通常 是 一 个 错误 
码 ， 例 如 -EIO. make request 应 当 返 回 0， 不 管 这 个 1/0 是 否 成 功 . 




















如 果 sbull 用 request mode-2 加 载 ， 它 操作 一 个 make request 函数 . 因为 sbull 已 
经 有 一 个 函数 看 传送 单个 bio, XA make request 函数 简单 : 


static int sbull make request (request queue t *q, struct bio *bio) 
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struct sbull dev *dev = q-?5queuedata; 
int status; 

status = sbull xfer bio(dev, bio); 
bio endio(bio, bio-^bi size, status); 
return 0; 


} 


请 注意 你 应 当 从 不 调用 bio endio 从 一 个 通常 的 请 求 函数 ， 那 个 工作 由 
end that request first 代替 来 处 理 . 























一 些 块 驱动 ， 例 如 那些 实现 卷 管理 者 和 软件 RAID 阵列 的 ， 真 正 需 要 重 定向 请 求 到 另 一 个 
设备 来 处 理 真正 的 I/0， 编 写 这 样 的 一 个 驱动 超出 了 本 书 的 范围 ， 我 们 ， 但 是 ， 注 意 如 果 
make request 函数 返回 一 个 非 零 值 ，bio WERHEZ. ~N ER R, o, Ak, 
改 bi bdev 成 员 来 指向 一 个 不 同 的 设备 ， 改 变 起 始 扇 区 值 ， 接 着 返回 ; 块 系统 接着 传递 
bio 到 新 设备 ， 还 有 一 个 bio_split 调用 来 划分 一 个 bio 到 多 个 块 以 提交 给 多 个 设备 . 
尽管 如 果 队 列 参数 被 之 前 设置 ， 划 分 一 个 bio 几乎 从 不 需要 . 





























任何 一 个 方式 ， 你 都 必须 告知 块 子 系统 ， 你 的 驱动 在 使 用 一 个 自 定 义 的 make_request R 
数 ， 为 此 ， 你 必须 分 配 一 个 请 求 队列 ， 使 用 : 














request queue t *blk alloc queue(int flags); 





这 个 函数 不 同 于 blk_init_queue， 它 不 真正 建立 队列 来 持 有 请 求 ， flags 参数 是 一 组 分 
配 标 志 被 用 来 为 队列 分 配 内 存 ; 常常 地 正确 值 是 GFP KERNEL， 一 旦 你 有 一 个 队列 ， 传 递 
它 和 你 的 make request KAE] blk queue make request: 























void blk queue make request(request queue t *queue, make request fn *func); 





sbull 代码 来 设置 make request PAZ, $£: 


dev-^queue = blk alloc queue (GFP KERNEL); 
if (dev->queue == NULL) 
goto out vfree; 
blk queue make request (dev->queue, sbull make request); 


对 于 好 奇 的 人 ， 花 些 时 间 深 入 drivers/block/ll rw block.c 会 发 现 ， 所 有 的 队列 都 有 
一 个 make request 函数 . 缺 省 的 版 本 ，generic make request， 处 理 bio 和 一 个 请 求 
结构 的 结合 .通过 提供 一 个 它 自己 的 make_request 函数 ， 一 个 驱动 真正 只 覆盖 一 个 特定 
的 请 求 队列 方法 ， 并 且 排 序 大 部 分 工作 . 


16.4. 一 些 其 他 的 细节 


本 节 涵 盖 块 层 的 几 个 其 他 的 方面 ， 对 于 高 级 读者 可 能 有 兴趣 ， 对 于 编写 一 个 正确 的 驱动 下 
面 的 内 容 都 不 需要 ， 但 是 它们 在 茶 些 情况 下 可 能 是 有 用 的 . 


16.4.1. 命令 预 准备 
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块 层 为 驱动 提供 一 个 进 制 来 检查 和 预 处 理 请 求 ， 在 它们 被 从 elv next request 返回 前 . 
这 个 机 制 允 许 驱 动 提前 设立 真正 的 驱动 器 命令 ， 决 定 是 否 这 个 请 求 可 被 完全 处 理 ， 或 者 进 
行 其 他 的 维护 工作 . 























如 果 你 想 使 用 这 个 特性 ， 创 建 一 个 命令 准备 函数 ， 它 要 适应 这 个 原型 : 


typedef int (prep rq fn) (request queue t *queue, struct request *req); 








请 求 结构 包含 一 个 成 员 cmd， 它 是 一 个 BLK MAX CDB 字 节 的 数组 ; 这 个 数组 可 被 这 个 准 
备 函 数 用 来 存储 实际 的 硬件 命令 (或 者 任何 其 他 的 有 用 信息 )， 这 个 函数 应 当 返 回 一 个 下 列 
的 值 : 





BLKPREP OK 


命令 准备 正常 进行 ， 并 且 这 个 请 求 可 被 传递 给 你 的 驱动 的 请 求 函数 . 








BLKPREP KILL 





这 个 请 求 不 能 完成 ; 它 带 有 一 个 错误 码 而 失败 ， 


BLKPREP DEFER 





这 个 请 求 这 次 无 法 完成 ， 它 位 于 队列 的 前 面 ， 但 是 不 能 传递 给 请 求 函数 . 


准备 函数 被 elv next request 在 请 求 返 回 到 你 的 驱动 之 前 立刻 调用 .如 果 这 个 函数 返回 
BLKPREP_DEFER， 从 elv next request 返回 给 你 的 驱动 的 返回 值 是 NULL， 这 个 操作 描述 
可 能 是 有 用 的 ， 如 果 ， 例 如 你 的 设备 已 达到 它 能 够 等 候 的 请 求 的 最 大 数目 . 





为 使 块 层 调用 你 的 准备 函数 ， 传 递 它 到 : 


void blk queue prep rq(request queue t *queue, prep rq fn *func); 





缺 省 地 ， 请 求 队列 没有 准备 函数 . 
16. 4. 2， 被 标识 的 命令 排队 


可 同时 有 多 个 请 求 被 激活 的 人 硬件， 常常 支持 茶 种 被 标识 的 命令 排队 (TCQ)，TCQ 简单 地 说 
是 关联 一 个 整数 “tag” 到 每 个 请 求 的 技术 ， 注 意 当 驱动 器 完成 每 个 请 求 时 ， 他 可 告知 驱 
动 是 哪 一 个 ， 在 以 前 的 内 核 版 本 ， 实 现 TCQ 的 块 驱动 不 得 不 自己 做 所 有 的 工作 ; 在 2. 6， 
一 个 TCQ 支持 框架 已 经 被 添加 到 块 屋 ， 以 给 所 有 的 驱动 来 使 用 . 


























如 果 你 的 驱动 器 进行 标记 命令 排队 ， 你 应 当 在 初始 化 时 通知 内 核 这 个 事实 ， 使 用 : 


int blk queue init tags(request queue t *queue, int depth, struct 
blk queue tag *tags); 








XE, queue 是 你 的 请 求 队列 ， 而 depth 是 你 的 设备 能 够 在 任何 时 间 拥有 的 等 待 的 标记 
请 求 的 数目 ，tags 是 一 个 可 选 的 指针 指向 一 个 struct blk queue tag 结构 数组 ; 必须 
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有 depth 个 .正常 地 ，tasgs 可 用 NULL, 3f H. blk queue init tags 分 配 这 个 数组 . 
如 果 ， 但 是 ， 你 需要 和 多 个 设备 分 享 通用 的 tags， 你 可 传递 这 个 标记 数组 指针 (存储 在 
queue tags 成 员 ) 从 另 一 个 请 求 队列 ， 你 应 当 从 不 真正 自己 分 配 这 个 标记 数组 ; 块 层 需要 
初始 化 这 个 数组 并 且 不 输出 这 个 初始 化 函数 给 模块 . 























因为 blk queue init tags 分 配 内 存 ， 它 可 能 失败 .在 那个 情况 下 它 返 回 一 个 负 的 错误 
码 给 调用 者 . 











如 果 你 的 设备 可 处 理 的 标记 的 数目 改变 了 ， 你 可 通知 内 核 ， 使 用 : 





int blk queue resize tags(request queue t *queue, int new depth); 


这 个 队列 锁 必 须 在 这 个 调用 期 间 被 持 有 . 这 个 调用 可 能 失败 ， 返 回 一 个 负 错 误 码 . 





一 个 标记 和 一 个 请 求 结构 的 关联 被 blk queue start tag 来 完成 ， 它 必须 在 成 员 队 列 锁 
被 持 有 时 调用 : 





int blk queue start tag(request queue t *queue, struct request *req); 





如 果 一 个 tag 可 用 ， 这 个 函数 分 配 它 给 这 个 请 求 ， 存 储 这 个 标识 号 在 req tag, JEFBE 
回 0， 它 还 从 队列 中 解除 这 个 请 求 ， 并 且 连 接 它 到 它 自己 的 标识 跟踪 结构 ， 因 此 你 的 驱动 
应 当 小 心 不 从 队列 中 解除 这 个 请 求 ， 如 果 在 使 用 标识 ， 如 果 没 有 标识 可 用 ， 

blk queue start tag 将 这 个 请 求 留 在 队列 并 且 返回 一 个 非 零 值 

















当 一 个 给 定 的 请 求 的 所 有 的 传送 都 已 完成 ， 你 的 驱动 应 当 返 回 标识 ， 使 用 : 





void blk queue end tag(request queue t *queue, struct request *reg); 


再 一 次 ， 你 必须 持 有 队列 锁 ， 在 调用 这 个 函数 之 前 ， 这 个 调用 应 当 在 

end that request first 返回 0 之 后 进行 (意味 着 这 个 请 求 完 成 )， 但 要 在 调用 

end that request last 之 前 .， 记 住 这 个 请 求 已 经 从 队列 中 解除 ， 因 此 它 对 于 你 的 驱动 在 
此 点 这 样 做 可 能 是 一 个 错误 . 

















如 果 你 需要 找到 关联 到 一 个 给 定 标 识 上 的 请 求 ( 当 驱动 器 报告 完成 ， 例 如 )， 使 用 
blk queue find tag: 





struct request *blk queue find tag(request queue t *qeue, int tag); 











返回 值 是 关联 的 请 求 结构 ， 除 非 有 些 事情 已 经 真 的 出 错 了 . 

如 果 事 情 真 地 出 错 了 ， 你 的 请 求 可 能 发 现 它 自 己 不 得 不 复位 或 者 对 其 中 一 个 它 的 设备 进行 
一 些 其 他 的 大 动作 .在 这 种 情况 下 ， 任 何等 等 中 的 标识 命令 将 不 会 完成 ， 块 层 提 供 一 个 函 
数 可 用 帮助 在 这 种 情况 下 恢复 : 


void blk queue invalidate tags(request queue t *queue) ; 


这 个 函数 返回 所 有 的 等 待 的 标识 给 这 个 池 ， 并 且 将 关联 的 请 求 放 回 请 求 队列 ， 你 调用 这 个 
函数 时 必须 持 有 队列 锁 . 
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16. 5. 快速 参考 


include <linux/fs. h> 
int register blkdev (unsigned int major, const char *name) ; 
int unregister blkdev(unsigned int major, const char *name); 


register blkdev 注册 一 个 块 驱动 到 内 核 ， 并 且 ， 可 选 地 ， 获 得 一 个 主编 号 ， 一 个 
驱动 可 被 注销 ， 使 用 unregister blkdev. 





struct block device operations 








持 有 大 部 分 块 驱动 的 方法 的 结构 . 





Sinclude <linux/genhd. h> 
struct gendisk; 





描述 内 核 中 单个 块 设备 的 结构 . 





struct gendisk *alloc disk(int minors); 
void add disk(struct gendisk **gd); 





分 配 gendisk 结构 的 函数 ， 并 且 返 回 它 们 到 系统 . 


void set capacity(struct gendisk *gd, sector t sectors); 





存储 设备 能 力 ( 以 512-5 5) XE gendisk 结构 中 . 


void add disk(struct gendisk *gd) ; 





添加 一 个 磁盘 到 内 核 ， 一旦 调用 这 个 函数 ， 你 的 磁盘 的 方法 可 被 内 核 调用 . 


int check disk change(struct block device *bdev) ; 








PARR, MAER OE RETRO dS P FIAT PACA, JP HOKIBUESK B TEE PES TE 25 
检测 到 这 样 一 个 改变 . 











Sinclude <linux/blkdev. h> 
request queue t blk init queue(request fn proc *request, spinlock t *lock); 





void blk cleanup queue(request queue t *); 





处 理 块 请 求 队列 的 创建 和 删除 的 函数 . 





struct request *elv next request(request queue t *queue); 
void end request (struct request *req, int success); 


elv next request 从 一 个 请 求 队列 中 获得 下 一 个 请 求 ; end request 可 用 在 每 个 
简单 驱动 器 中 来 标识 一 个 (或 部 分 ) 请 求 完 成 . 
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void blkdev dequeue request(struct request *req); 
void elv requeue request(request queue t *queue, struct request *reg); 





从 队列 中 除去 一 个 请 求 ， 并 且 放 回 它 的 函数 如 果 需 要 . 


void blk stop queue(request queue t *queue); 
void blk start queue(request queue t *queue); 





如 果 你 需要 阻止 对 你 的 请 求 函数 的 进一步 调用 ， 调 用 blk stop queue 来 完成 ， 调 
用 blk start queue 来 使 你 的 请 求 方法 被 再 次 调用 . 








void blk queue bounce limit(request queue t *queue, u64 dma addr); 
void blk queue max sectors (request queue t *queue, unsigned short max); 





void blk queue max phys segments (request queue t *queue, unsigned short max); 





void blk queue max hw segments (request queue t *queue, unsigned short max); 





void blk queue max segment size(request queue t *queue, unsigned int max); 
blk queue segment boundary(request queue t *queue, unsigned long mask); 
void blk queue dma alignment(request queue t *queue, int mask); 

void blk queue hardsect size(request queue t *queue, unsigned short max); 

















设置 各 种 队列 参数 的 函数 ， 来 控制 请 求 如 何 被 创建 给 一 个 特殊 设备 ; 这 些 参数 在 “ 
队列 控制 函数 “一 节 中 描述 . 





#include <linux/bio. h> 
struct bio; 


低级 函数 ， 表 示 一 个 块 I/0 请 求 的 一 部 分 . 


bio sectors(struct bio *bio); 
bio data dir(struct bio *bio); 


2 个 宏 定义 ， 表 示 一 个 由 bio 结构 描述 的 传送 的 大 小 和 方向 ， 





bio for each segment(bvec, bio, segno); 





一 个 伪 控 制 结构 ， 用 来 循环 组 成 一 个 bio 结构 的 各 个 段 . 


char * bio kmap atomic(struct bio *bio, int i, enum km type type); 
void bio kunmap atomic(char *buffer, enum km type type); 








. bio kmap atomic 可 用 来 创建 一 个 内 核 虚拟 地 址 给 一 个 在 bio 结构 中 的 给 定 的 
段 . 映射 必须 使 用 bio kunmap atomic 来 恢复 . 





struct page *bio page(struct bio **bio); 

int bio offset(struct bio *bio); 

int bio cur sectors(struct bio *bio); 

char *bio data(struct bio *bio); 

char *bio kmap irq(struct bio *bio, unsigned long **flags); 
void bio kunmap irq(char *buffer, unsigned long *flags); 
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一 组 存 取 者 宏 定 义 ， 提 供 对 一 个 bio 结构 中 的 “当前 “ 段 的 存 取 . 





void blk queue ordered(request queue t *queue, int flag); 
int blk barrier rq(struct request *req); 


如 果 你 的 驱动 实现 屏障 请 求 ， 调 用 blk queue ordered -- 如 同 它 应 当做 的 . 
blk barrier rq 返回 一 个 非 零 值 如 果 当 前 请 求 是 一 个 屏障 请 求 . 





int blk noretry request(struct request *req); 
这 个 宏 返 回 一 个 非 零 值 ， 如 果 给 定 的 请 求 不 应 当 在 出 错时 重新 尝试 . 


int end that request first(struct request *req, int success, int count); 
void end that request last(struct request *reqg); 





使 用 end that request firest 来 指示 一 个 块 1/0 请 求 的 一 部 分 完成 ， 当 那个 函 
数 返回 0， 请 求 完 成 并 且 应 当 被 传递 给 end that request last. 


rq for each bio(bio, request) 





另 一 个 用 宏 定 义 来 实现 的 控制 结构 ; 它 步 入 构成 一 个 请 求 的 每 个 bio. 


int blk rq map sg(request queue t *queue, struct request *req, struct 
scatterlist *list); 








为 一 次 DMA 传送 填充 给 定 的 散布 表 ， 用 需要 来 映射 给 定 请 求 中 的 缓冲 的 信息 





typedef int (make request fn) (request queue t *q, struct bio *bio); 
make request 函数 的 原型 . 
void bio endio(struct bio *bio, unsigned int bytes, int error); 


指示 一 个 给 定 bio 的 完成 ， 这 个 函数 应 当 只 用 在 你 的 驱动 直接 获取 bio ， 通 过 
make request KIM HJE. 


request queue t *blk alloc queue(int flags); 
void blk queue make request (request queue t *queue, make request fn *func); 








使 用 blk alloc queue 来 分 配 由 定制 的 make request 函数 使 用 的 请 求 队列 ， 
那个 函数 应 当 使 用 blk queue make request 来 设置 . 











typedef int (prep rq fn) (request queue t *queue, struct request *reqg); 
void blk queue prep rq(request queue t *queue, prep rq fn *func); 








一 个 命令 准备 函数 的 原型 和 设置 函数 ， 它 可 用 来 准备 必要 的 硬件 命令 ， 在 请 求 被 传 
递 给 你 的 请 求 函 数 之 前 . 





int blk queue init tags(request queue t *queue, int depth, struct blk queue tag *tags); 
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int blk queue resize tags(request queue t *queue, int new depth); 

int blk queue start tag(request queue t *queue, struct request *req); 
void blk queue end tag(request queue t *queue, struct request *req); 
struct request *blk queue find tag(request queue t *qeue, int tag); 
void blk queue invalidate tags(request queue t *queue); 





驱动 使 用 被 标记 的 命令 队列 的 支持 函数 . 
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第 17 章 网 络 驱动 








我 们 已 经 讨论 了 字符 和 块 驱动 ， 现 在 准备 好 转移 到 网 络 世界 里 .网 络 接口 是 第 3 类 标准 的 Linux 设备 ， 








本 章 描述 它们 如 何 与 内 核 其 他 部 分 交互 . 




















一 个 网 络 接口 的 在 系统 内 的 角色 与 一 个 被 加 载 的 块 设备 的 角色 类 似 ， 一 个 块 设备 注册 它 的 磁盘 和 工作 方 
法 到 内 核 ， 随 之 通过 它 的 请 求 函数 按 需 求 "发 送 “ 和 接收“ 块 . 类 似 的 ， 一 个 网 络 接口 必须 注册 它 自 己 到 























特定 的 内 核 数据 结构 中 ， 以 便 在 与 外 部 世界 交换 报 文 时 被 调用 . 
























































在 被 加 载 的 磁盘 和 报 文 递 送 接口 之 间 有 几 个 重要 的 区 别 ， 首 先 ， 磁 盘 作 为 一 个 特殊 的 文件 存在 于 /dev 


目录 下， 然而 一 个 网 络 接口 没有 这 样 的 入 口 点 ， 正 常 的 文件 操作 ( read，write， 等 等 ) 对 于 网 络 接口 


没有 意义 ， 因 此 不 可 能 适用 Unix 的 一切 名 文件 ”的 方法 给 它们 . 从而， 网络 接口 存在 于 它们 自己 的 名 























子 空间 里 ， 并 且 对 外 输出 了 一 套 不 同 的 操作 . 

















尽管 你 可 能 会 反 驶 说 ， 应 用 程序 在 使 用 socket 时 可 以 使 用 read 和 write 系统 调用 ， 



































这 些 系统 调用 














作用 于 一 个 软件 对 象 上 ， 而 它 与 接口 是 明显 不 同 的 ， 几 百 个 socket 可 以 在 同一 个 物理 接口 上 复 用 . 






































但 是 两 者 最 重要 的 不 同 在 于 ， 块 驱动 的 运行 只 是 响应 来 自 内 核 的 请 求 ， 但 是 网 络 驱 动 从 外 边 异步 地 接收 


























报 文 ， 因 此 ， 不 同 于 一 个 块 驱动 被 要 求 向 内 核发 送 一 个 缓存 区 ， 网 络 设备 要 求 向 内 核 
网 络 驱动 使 用 的 内 核 接口 为 这 个 不 同 的 操作 模式 而 设计 . 


















































E 送 进入 的 报 文 . 


网 络 驱 动 也 不 得 不 准备 支持 很 多 的 管理 任务 ， 例 如 设置 地 址 ， 修 改 发 送 参 数 ， 以 及 维护 流量 和 错误 统计 . 

















网 络 驱 动 使 用 的 APT 反映 了 这 种 需要 ， 并 且 因此 ， 能 看 出 一 些 与 我 们 之 前 看 到 的 接口 的 不 同 . 











Linux 内 核 的 网 络 子 系统 被 设计 成 是 完全 独立 于 协议 的 .这 适用 于 网 络 协 议 ( 互联 网 协议 [IP]， 相 对 
于 IPX， 或 者 其 他 协议 ) 和 硬件 协议 ( 以 大 网 ， 相 对 的 令 牌 环 ， 等 等 )， 一 个 网 络 驱 动 和 内 核 互 相 作 用 
在 同一 时 间 正 确 处 理 一 个 网 络 报 文 ; 这 允许 对 驱动 巧妙 地 隐藏 了 协议 的 信息 ， 以 及 对 协议 隐藏 了 物 型 





























送 . 
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本 章 描述 了 网 络 接口 如 何 适 用 于 Linux 内 核 的 其 他 部 分 ， 并 以 一 个 基于 内 存 模块 化 网 络 接口 的 形式 提 
























































供 了 例子 ， 它 称 做 ( 你 猜 一 下 ) snull. 为 简化 讨论 ， 这 个 接口 使 用 以 太 网 硬件 协议 和 发 送 IP 报 文 . 


你 从 测验 snull 中 获得 的 知识 已 能 够 应 用 到 非 IP 的 协议 上 ， 并 且 编 写 一 个 非 以 太 网 驱动 只 是 有 极 小 














的 与 实际 网 络 协议 相关 的 区 别 . 




















本 章 不 讨论 IP 编号 方案 ， 网 络 协 议 ， 以 及 其 他 通用 的 网 络 概念 ， 这 样 的 话题 不 是 ( 常常 地 ) 驱动 编写 
者 所 关心 的 ， 并 且 不 可 能 提供 一 个 满意 的 网 络 技术 的 概述 在 不 足 几 百 页 里 面 ， 建议 感 兴趣 的 读者 去 参考 


















































其 他 的 描述 网 络 方面 的 书籍 . 





在 进入 网 络 设备 之 前 ， 提 及 一 个 技术 方面 的 注意 问题 .网 络 世界 使 用 术语 octet 来 表示 一 个 8 个 位 


























组 ， 它 通常 是 网 络 设备 和 协议 能 理解 的 最 小 单元 .术语 byte 在 这 个 上 下 文中 极 少 遇 到 ， 为 紧 跟 标 准 用 














法 ， 我 们 将 使 用 octet， 在 谈论 网 络 设备 的 时 候 . 

















的 








术语 ”header“ 也 值得 一 提 .， 一 个 header 是 一 组 字 节 ( 错 了 ， 是 octet)， 要 安排 到 一 个 报 文 里 ， 当 





















































它 


穿 过 网 络 子 系统 的 各 层 时 ， 当 一 个 应 用 程序 通过 一 个 TCP socket 发 送 了 一 个 数据 块 ， 网 络 子 系统 拆 开 





数据 ， 填 充 到 报 文 里 ， 在 报 文 开始 安 上 一 个 TCP header 来 描述 每 个 报 文 在 流 里 面 的 位 置 . 下面 的 协议 

















层 接着 在 TCP header 之 前 安 上 一 个 IP header， 用 来 路 由 这 个 报 文 到 它 的 目的 地 ， 如 果 这 个 报 文 在 类 
似 以 太 网 的 介质 上 移动 ， 一 个 以 太 网 header， 由 硬件 来 解析 的 ， 加 在 在 余下 的 前 面 . 网 络 驱 动 (常常) 









































不 需要 让 自己 去 理 皮 高 层 的 header， 但 是 它们 经 常 必须 参与 硬件 级 别 的 header 的 创建 . 





17.1. snull 是 如 何 设计 的 
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本 节 谈 论 产生 snull 网 络 接口 的 设计 概念 ， 尽管 这 个 信息 可 能 看 来 是 边缘 的 使 用 ， 不 到 
解 它 在 你 运行 例子 代码 时 可 能 会 导致 问题 . 

















HH 




















首先 ， 也 是 最 重要 的 ， 设 计 的 决定 是 例子 接口 应 该 保持 独立 于 真实 的 硬件 ， 就 像 本 书 使 用 
的 大 部 分 例子 .这 个 限制 导致 了 一 些 构成 环 回 接口 的 东西 .snull 不 是 一 个 环 回 接口 ; 但 
是 ， 它 模拟 了 与 真实 的 远 端 主机 间 的 对 话 ， 以 便 更 好 演示 编写 一 个 网 络 驱动 的 任务 . 
Linux 环 回 驱 动 实际 是 非常 简单 的 ; 它 可 在 drivers/net/lookback.c 找到 . 





























snull 的 另 一 个 特性 是 它 只 支持 IP 通讯 . 这 是 接口 的 内 部 工作 的 结果 -- snull 不 得 不 
查看 里 面 并 且 解 析 报 文 来 正确 模拟 一 对 硬件 接口 .实际 的 接口 不 依赖 于 被 发 送 的 协议 ， 并 
H. snull 的 这 种 限制 不 影响 本 章 展示 的 代码 片断 . 




















17.1.1. 分 配 IP 号 











snull 模块 创建 了 两 个 接口 ， 这些 接口 与 一 个 简单 的 环 回 不 同 ， 因 为 无 论 你 通过 其 中 一 个 
接口 发 送 什 么 都 环 回 到 为 外 一 个 ， 而 不 是 它 自己 。 它 看 起 来 好 像 你 有 两 个 外 部 连接 ， 但 实 
际 上 是 你 的 计算 机 在 回答 它 上 自己 . 








不 笠 的 是 ， 这 个 效果 不 能 仅仅 通过 IP 号 码 分 配 来 完成 ， 因 为 内 核 不 会 通过 接口 A 发 送 
一 个 报 文 给 它 自 己 的 接口 B， 它 会 利用 环 回 通道 而 不 是 通过 snull， 为 了 能 建立 一 个 通过 
snull 接口 的 通讯 ， 源 和 目的 地 址 在 实际 传送 中 需要 修改 ， 换 句 话 说， 通过 其 中 一 个 接口 
发 送 的 报 文 应 该 被 男 一 个 收 到 ， 但 是 外 出 报 文 的 接受 者 不 应 当 被 认 做 是 本 地 主机 .同样 适 
用 于 接收 到 的 报 文 的 源 地 址 . 




















为 获得 这 种 "隐藏 的 环 回 ”，snull 接口 翻转 源 地 址 和 目的 地 址 的 第 3 个 octet 的 最 低 有 
效 位 ; 就 是 说 ， 它 改变 了 C 类 IP 编号 的 网 络 编号 和 主机 编号 ， 网 络 方面 的 效果 是 发 给 
网 络 A( 连接 在 sn0 上 ， 第 一 个 接口 ) 的 报 文 作为 属于 网 络 B 的 报 文 出 现在 snl 接口 . 




















为 避免 处 理 太 多 编号 ， 我 们 分 配 符号 名 子 给 涉及 到 的 IP 编号 : 








e snullnetO 是 连接 到 sn0 接口 的 网 络 . 同样 ，snullnetl 是 连接 到 snl. 这 些 网 
络 的 地 址 应 当 仅仅 在 第 3 个 octet 的 最 低 有 效 位 不 同 ， 这些 网 络 必须 有 24 位 的 
TAHE. 

。 local0 是 分 配给 sn0 接口 的 IP 地 址 ; 它 属于 snullnetO. 陪伴 snl 的 地 址 是 
locall. local0 和 locall 必须 在 它们 的 第 3 octet 的 最 低 有 效 位 和 第 4 octet 
上 不 同 . 

e remote0 是 在 snullnet0 的 主机 ， 并 且 它 的 第 4 octet 与 locall 的 相同 .任何 
发 送 给 remote0 的 报 文 到 达 locall， 在 它 的 网 络 地 址 被 接口 代码 改变 之 后 .主机 
remotel 属于 snullnetl1， 它 的 第 4 octet 与 local0 相同 . 














snull 接口 的 操作 在 图 主机 如 何 看 它 的 接口 中 描述 ， 其 中 每 个 接口 的 关联 的 主机 名 印 在 
接口 名 的 劳 边 . 


图 17.1. 主机 如 何 看 它 的 接口 
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一 一 
remoteü 
snullnetO 


po 一 一 -= 一 一 --- 一 一 --- 一 一 --- 一 --- 









lo snü 


| localhost localü 
localnet | 
gm ethü sni 


| morgana locali 











F 面 是 网 络 编号 的 可 能 值 . 一 旦 你 把 这 些 行 放 进 /etc/networks， 你 可 以 使 用 名 子 来 调用 
你 的 网 络 ， 这些 值 选 自 保留 做 私人 用 途 的 编号 范围 . 


snullnetO 192.168.0.0 
snullnetl 192.168.1.0 





下 面 的 是 一 些 可 能 的 主机 编写， 可 放 进 /etc/hosts 里 面 : 


192.168.0.1 local0 
192.168.0.2 remote0 
192.168.1.2 locall 
192.168.1.1 remotel 











这 些 编号 的 重要 特性 是 localo 的 主机 部 分 与 remotel 的 主机 部 分 相同 ，locall 的 主机 
部 分 和 remote0 的 主机 部 分 相同 .你 可 以 使 用 完全 不 同 的 编号 ， 只 要 保持 着 这 种 关系 . 


























但 是 要 小 心 ， 如 果 你 的 计算 机 以 及 连接 到 一 个 网 络 上 ， 你 选择 的 编号 可 能 是 真实 的 互联 网 
或 者 内 联网 的 编号 ， 把 它们 安排 给 你 的 接口 会 阻止 和 这 些 真实 的 主机 间 的 通讯 .例如 ， 尽 
管 刚刚 展示 的 这 些 编号 不 是 可 以 路 由 的 互联 网 编号 ， 它 们 也 可 能 被 你 的 私有 网 络 已 经 在 使 
H. 








不 管 你 选择 什么 编号 ， 你 可 以 正确 设置 这 些 接口 来 操作 ， 通 过 发 出 下 面 的 命令 : 


4 





ifconfig sn0 local0 
ifconfig snl locall 





你 可 能 需要 添加 网 络 掩 码 255. 255. 255. 0 参数 ， 如 果 选 择 的 地 址 范围 不 是 C 类 范围 . 
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在 此 ， 接 口 的 “远程 “端点 能 够 到 达 了 .下 面 的 屏幕 拷贝 显示 了 一 个 主机 如 何 到 达 remote0 
和 remotel 的 ， 通 过 snull 接口 . 





morgana% ping -c 2 remote0 

64 bytes from 192. 168. 0.99: icmp seq=0 ttl1-64 time-1.6 ms 
64 bytes from 192. 168. 0.99: icmp seq-1 ttl-64 time-0.9 ms 
2 packets transmitted, 2 packets received, 0% packet loss 
morgana% ping -c 2 remotel 

64 bytes from 192. 168. 1.88: icmp seq-0 ttl-64 time-1.8 ms 
64 bytes from 192. 168. 1.88: icmp seg-1 ttl-64 time-0.9 ms 
2 packets transmitted, 2 packets received, 0% packet loss 


注意 ， 你 不 能 到 达 属 于 这 两 个 网 络 的 任何 其 他 主机 ， 因 为 报 文 被 你 的 计算 机 丢弃 了 ， 在 地 
址 被 修改 和 收 到 报 文 之 后 ， 例 如 ， 一 个 发 向 192. 168. 0. 32 的 报 文 将 离开 sn0 并 以 
192.168. 1. 32 的 目的 地 址 出 现在 sn1， 这 并 不 是 这 台 主 机 的 本 地 地 址 . 

17. 1. 2， 报 文 的 物理 传送 


只 考虑 数据 传送 的 话 ，snull 接口 属于 以 太 网 一 类 的 . 


























snull 模拟 以 太 网 是 因为 大 量 的 现存 网 络 -- 至 少 一 个 工作 站 所 连接 的 网 段 一 是 基于 以 
太 网 技术 的 ， 它 可 能 是 10base-T，100base-T， 或 者 千 兆 网 另外， 内核 为 以 太 网 设备 
提供 了 一 些 通用 的 接口 ， 没 有 理由 不 用 它 . 一 个 以 太 网 设备 的 优势 是 如 此 的 强 以 至 于 
plip 接口 ( 使 用 打印 机 端口 的 接口 ) 都 声明 自己 是 一 个 以 太 网 设备 . 









































snull 使 用 以 太 网 设置 的 最 后 一 个 优势 是 你 可 以 运行 tcpdump 在 接口 上 来 观察 过 往 的 报 
X. AEH tepdump 来 观察 接口 是 得 知 两 个 接口 如 何 工作 的 有 用 途径 . 











如 同 我 们 之 前 提 到 的 ，snull 只 处 理 IP 报 文 . 这 个 限制 来 自 这 样 的 事实 ，snull 监听 报 
文 并 且 甚 至 修改 它们 ， 以 便 使 代码 工作 .代码 修改 了 每 个 报 文 的 源 ， 目 的 和 IP header 
的 校 验 和 ， 并 不 检查 它 是 否 实际 承载 着 IP 信息 . 














这 种 快 而 脏 的 数据 修改 毁坏 了 非 IP 报 文 ， 如果 你 想 通 过 snull 递交 其 他 协议 ， 你 必须 
修改 模块 的 源 代 码 . 


17. 2， 连 接 到 内 核 


我 们 从 分 析 snull 的 源码 来 查看 网 络 驱 动 的 结构 开始 .把 几 个 张 动 的 源码 留 在 手边 ， 对 
于 下 面 的 讨论 和 得 知 真实 世界 中 的 Linux 网 络 驱动 如 何 运行 是 会 有 帮助 的 . 


17.2.1. 设备 注册 


当 一 个 驱动 模块 加 载 进 一 个 运行 着 的 内 核 中 ， 它 请 求 资源 并 提供 功能 ， 这 里 没有 新 内 容 . 
并 且 在 资源 是 如 何 请 求 上 也 没有 新 东西 驱动 应 当 探 测 它 的 设备 和 它 的 硬件 位 置 ( I/0 3n; 
口 和 IRQ 线 ) 一 但 是 不 注册 它们 一 如 在 第 10 半 的 ”安装 一 个 中 断 处 理 程序 “中 所 述 . 
一 个 网 络 驱 动 通过 它 的 模块 初始 化 函数 注册 的 方式 与 字符 和 块 驱动 是 不 同 的 .因为 没有 对 
等 的 主 次 编号 给 网 络 接口 ， 一 个 网 络 驱 动 不 请 求 这 样 一 个 号 ， 相 反 ， 驱 动 为 每 个 刚刚 探测 
到 的 接口 在 一 个 全 局 的 网 络 设 备 列 表 里 插 入 一 个 数据 结构 . 
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每 个 接口 由 一 个 结构 net device 项 来 描述 ， 它 在 《linux/netdevice.h> 里 定义 . snull 
驱动 留 有 指 问 两 个 这 样 结构 的 指针 ， 在 一 个 简单 数组 里 . 

















struct net device *snull devs[2]; 





net device 结构 ， 如 同 许多 其 他 内 核 结构 ， 包 含 一 个 kobject， 以 及 因此 它 可 被 引用 计 
数 并 通过 sysfs 输出 ， 如 同 别 的 这 样 的 结构 ， 它 必须 动态 分 配 。 进行 这 种 分 配 的 内 核 函 
数 是 alloc_netdev， 它 有 下 列 原型 : 

















struct net device *alloc netdev(int sizeof priv, 
const char *name, 
void (setup) (struct net device *)); 


XE, sizeof priv 是 驱动 的 的 “私有 数据 "区 的 大 小 ; 对 于 网 络 驱动 ， 这 个 区 是 同 

net device 结构 一 起 分 配 的 .实际 上 ， 这 两 个 是 是 在 一 个 大 内 存 块 中 一 起 分 配 的 ， 但 是 
驱动 作者 应 当 假 装 不 知道 这 一 点 . name 是 这 个 接口 的 名 子 ， 如 同 用 户 空 间 看 到 的 一 样 ; 

这 个 名 子 可 以 有 一 个 printf 风格 的 %d 在 里 面 ， 内 核 用 下 一 个 可 用 的 接口 号 来 替换 这 个 
%d， 最 后 ，setup 是 一 个 初始 化 函数 的 指针 ， 被 调用 来 设置 net device 结构 的 剩余 部 分 . 
我 们 即将 进入 这 个 初始 化 函数 ， 但 是 现在 ， 为 强化 起 见 ，snull 以 这 样 的 方式 分 配 它 的 两 
个 设备 结构 : 















































snull devs[0] = alloc netdev(sizeof(struct snull priv), “sn%d”, snull init); 
snull devs[1] = alloc netdev(sizeof(struct snull priv), “sn%d”, snull init); 
if (snull devs[0] == NULL || snull devs[1] == NULL) 

goto out; 























象 通常 一 样 ， 我 们 必须 检查 返回 值 来 确保 分 配 成 功 . 


网 络 子 系统 为 各 种 接口 提供 了 一 些 帮 助 函数 ， 包 囊 着 alloc_netdev， 最 通用 的 是 
alloc etherdev, XÆ <linux/etherdevice. h>: 





struct net device *alloc etherdev(int sizeof priv); 

















这 个 函数 分 配 一 个 网 络 设备 使 用 eth%d 作为 参数 name， 它 提供 了 自己 的 初始 化 函数 

( ether setup ) 来 设置 儿 个 net device 字段 ， 使 用 对 以 太 网 设备 合适 的 值 . 因此 ， 没 
有 了 驱动 提供 的 初始 化 函数 给 alloc etherdev; 驱动 应 当 只 完成 它 要 求 的 初始 化 ， 直 接 在 
一 个 成 功 的 分 配 之 后 .其 他 类 型 驱动 的 编写 者 可 能 想 利用 这 些 帮 助 函 数 的 其 中 一 个 ， 例 如 
alloc fcdev ( 定义 在 《linux/fcdevice.h> ) Jy fiber-channel 设备 ，alloc fddidev 
(X«linux/fddidevice.h?) 为 FDDI 设备 ， 或 者 aloc trdev (Xlinux/trdevice.h») 为 令 
牌 环 设备 . 

















snull 可 以 顺利 使 用 alloc etherdev; 我 们 选择 使 用 alloc netdev 来 代替 ， 作 为 演示 
低层 接口 的 方式 ， 并 且 给 我 们 控制 安排 给 接口 的 名 子 . 

















—H net device 结构 完成 初始 化 ， 完 成 这 个 过 程 就 只 是 传递 这 个 结构 给 
register netdev. 在 snull 中 ， 调 用 看 来 如 同 这 样 : 





for (i = 0; i < 2; i++) 
if ((result = register netdev(snull devs[i]))) 
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printk( snul1: error *i registering device \%s\ An^, 
result, snull devs[i]-^name); 


一 些 经 常 的 注意 问题 这 里 提 一 下 : 在 你 调用 register netdev 时 ， 你 的 驱动 可 能 会 马上 
被 调用 来 操作 设备 ， 因 此 ， 你 不 应 当 注 册 设 备 直 到 所 有 东西 都 已 经 完全 初始 化 . 


17. 2. 2， 初 始 化 每 一 个 设备 


我 们 已 经 看 到 了 net device 结构 的 分 配 和 注册 ， 但 是 我 们 越过 了 中 间 的 完全 初始 化 这 个 
结构 的 步骤 .注意 net device 结构 在 运行 时 一 直 是 放 在 一 起 ; 它 不 能 如 同一 个 

file operations 或 者 block device opreations 结构 一 样 在 编译 时 设置 .必须 在 调用 
register netdev 之 前 完成 初始 化 ，net_device 结构 又 大 又 复杂 ; 幸运 的 是 ， 内 核 负 责 
了 一 些 以 太 网 范围 中 的 缺 省 值 ， 通 过 ether setup 函数 (由 alloc etherdev 调用 ). 
































因为 snull 使 用 alloc_netdev， 它 有 单独 的 初始 化 函数 .该 函数 的 核心 ( snull init ) 
如 下 : 


ether setup(dev); /* assign some of the fields */ 
dev-^open = snull open; 

dev->Sstop = snull release; 

dev-»5set config = snull config; 

dev-^hard start xmit = snull tx; 

dev-»do ioctl = snull ioctl; 

dev-?5get stats = snull stats; 

dev-?rebuild header = snull rebuild header; 
dev-^»hard header = snull header; 

dev-^tx timeout = snull tx timeout; 

dev-?watchdog timeo = timeout; 

/* keep the default flags, just add NOARP x/ 
dev->flags |- IFF NOARP; 

dev-^features |= NETIF F NO CSUM; 

dev-^hard header cache = NULL; /* Disable caching */ 





上 面 的 代码 是 对 net device 结构 的 例 行 初始 化 ; 大 部 分 是 存储 我 们 的 各 种 驱动 函数 指针 . 
代码 的 单个 不 寻常 的 特性 是 设置 IFF NOARP 在 flags 里 面 ， 这 个 指出 该 接口 不 能 使 用 
ARP. ARP 是 一 个 低层 以 太 网 协议 ; 它 的 工作 是 将 IP 地 址 转变 成 以 太 网 介质 存 取 控 制 
(MAC) 地 址 ， 因 为 由 snull 模拟 的 远程 系统 并 不 存在 ， 就 没 人 回答 对 它们 的 ARP 请 求 . 
不 想 因为 增加 ARP 实现 使 snull 变 复 杂 ， 我 们 选择 标识 接口 作为 不 能 处 理 这 个 协议 ， 其 
中 的 对 hard header cache 赋值 是 同样 理由 : 它 关 闭 了 这 个 接口 的 (不 存在 的 ) ARP 回答 . 
这 个 主题 在 本 章 后 面 的 ”MAC 地 址 解析 “一 节 中 详 述 . 









































代码 初始 化 也 设置 了 几 个 和 发 送 超时 的 处 理 有 关 的 几 个 变量 ( tx_timeout 和 
watchdog time ). 我 们 在 “发 送 超时 “一 节 完 整地 涉及 这 个 主题 . 





我 们 现在 看 结构 net device 的 男 一 个 成 员 ，priv. 它 的 角色 近似 于 我 们 用 在 字符 驱动 上 
的 private data 指针 .不同 于 fops-X>private data， 这 个 priv 指针 是 随 net device 
结构 一 起 分 配 的 .也 不 鼓励 直接 存 取 priv 成 员 ， 由 于 性 能 和 灵活 性 的 原因 ， 当 一 个 驱动 
需要 存 取 私有 数据 指针 ， 应 当 使 用 netdev priv 函数 . 因此 ，snull 驱动 充满 着 这 样 的 
声明 : 
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struct snull priv *priv = netdev priv (dev); 








snull 模块 声明 了 一 个 snull priv 数据 结构 来 给 priv 使 用 : 





struct snull priv { 
struct net device stats stats; 
int status; 
struct snull packet **ppool; 
struct snull packet *rx queue; /* List of incoming packets */ 
int rx int enabled; 
int tx packetlen; 
u8 **tx packetdata; 
struct sk buff *skb; 
spinlock t lock; 


}; 











这 个 结构 包括 ， 还 有 其 他 东西 ， 一 个 net device stats 结构 的 实例 ， 这 是 放置 接口 统计 
量 的 标准 地 方 ， 下面 的 在 snull init 中 的 各 行 分 配 并 初始 化 dev->priv: 


priv = netdev_priv(dev) ; 

memset(priv, 0, sizeof(struct snull priv)); 

spin lock init(&priv-?lock); 

snull rx ints(dev, 1); /* enable receive interrupts */ 


17.2.3. TREE 


TEE AR ACORDE. RENAE RAUR EE, SETIAEfI SS A AA, T 
放 net device 结构 回 系 统 . 























void snull cleanup (void) 
{ 


int 1; 


for (120; i < 2; i++) { 
if (snull devs[i]) { 
unregister netdev(snull devs[i]); 
snull teardown pool(snull devs[i]); 
free netdev(snull devs[i]); 


} 
} 


return; 


} 


对 unregister netdev 的 调用 从 系统 中 去 除了 接口 ; free netdev 归还 net device 结 
构 给 内 核 . 如 果菜 个 地 方 有 对 这 个 结构 的 引用 ， 它 可 能 继续 存在 ， 但 是 你 的 驱动 不 需要 关 
心 这 个 ， 一旦 你 已 经 注销 了 接口 ， 内 核 不 再 调用 它 的 方法 . 
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注意 我 们 的 内 部 清理 ( 在 snull teardown pool 里 所 做 的 ) 直到 已 经 注销 了 设备 后 才能 
进行 ， 它 必须 ， 但 是 ， 在 我 们 返回 net device 结构 给 系统 之 前 进行 ; 一 旦 我 们 已 调用 了 
free_netdev， 我 们 再 不 能 对 这 个 设备 或 者 我 们 的 私有 数据 做 任何 引用 . 


17.3. net device 结构 的 详情 

net device 结构 处 于 网 络 驱 动 层 的 非常 核心 的 位 置 并 且 值 得 完全 的 描述 ， 这 个 列表 描述 
了 所 有 成 员 ， 更 多 的 是 提供 了 一 个 参考 而 不 是 用 来 备 态 .本 章 剩 下 的 部 分 简要 地 描述 了 每 
个 成 员 ， 一 旦 它 用 在 例子 代码 上 ， 因 此 你 不 需要 不 停 地 回 看 这 一 节 . 
17.3.1. 全 局 信息 


结构 net_device 的 第 一 部 分 是 由 下 面 成 


















































xu 
EX 
E 


char name [|IFNAMSIZ]; 


设备 名 子 . 如 果 名 子 由 驱动 设置 ， 包 含 一 个 9d BENI, register netdev 用 一 个 
数 替换 它 来 形成 一 个 唯一 的 名 子 ; 分 配 的 编号 从 0 开始 . 























unsigned long state; 








设备 状态 ， 这 个 成 员 包 括 儿 个 标志 . 驱动 正常 情况 下 不 直接 操作 这 些 标 志 ; 相反 ， 
提供 了 一 套 实用 函数 ， 这些 函数 在 我 们 进入 驱动 操作 后 马上 讨论 这 些 函 数 . 





struct net device **next; 
全 局 列表 中 指向 下 一 个 设备 的 指针 ， 这 个 成 员 驱 动 不 能 动 . 

int (*init) (struct net device *dev); 
一 个 初始 化 函数 .如果 设置 了 这 个 指针 ， 这 个 函数 被 register_netdev 调用 来 完 
成 对 net device 结构 的 初始 化 ， 大 部 分 现代 的 网 络 驱 动 不 再 使 用 这 个 函数 ; 相反 ， 
初始 化 在 注册 接口 前 进行 . 

17. 3. 2， 硬 件 信息 


下 面 的 成 员 包含 了 相对 简单 设备 的 低层 硬件 信息 ， 它 们 是 早期 Linux 网 络 的 延续 ; 大 部 
分 现代 驱动 确实 使 用 它们 (可 能 的 例外 是 if port ). 我 们 为 完整 起 见 在 这 里 列 出 . 





























unsigned long rmem end; 
unsigned long rmem start; 
unsigned long mem end; 
unsigned long mem start; 











设备 内 存 信息 ， 这些 成 员 持 有 设备 使 用 的 共享 内 存 的 开始 和 结束 地 址 ， 如 果 设 备 有 
不 同 的 接收 和 发 送 内 存 ，menm 成 员 由 发 送 内 存 使 用 ，rmem 成 员 由 接收 内 存 使 用 . 
rmem 成 员 在 驱动 之 外 从 不 被 引用 .惯例 上 ， 设 置 end 成 员 ， 所 以 end - start 
是 可 用 的 板 上 内 存 的 数量 . 
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unsigned long base addr; 








网 络 接口 的 I/0 基地 址 ， 这 个 成 员 ， 如 同 前 面 的 ， 由 驱动 在 设备 探测 时 赋值 . 
ifconfig 目录 可 用 来 显示 或 修改 当前 值 . base_addr 可 以 当 系 统 启 动 时 在 内 核 命 
令 行 中 显 式 赋值 ( 通过 netdev= 参数 )， 或 者 在 模块 加 载 时 ， 这 个 成 员 ， 象 上 面 描 
述 过 的 内 存 成 员 ， 内 核 不 使 用 它们 . 

















unsigned char irq; 


安排 的 中 断 号 ， 当 接口 被 列 出 时 ifconfig 打印 出 dev->irg 的 值 ， 这 个 值 常 常 在 
启动 或 者 加 载 时 间 设 置 并 且 在 后 来 由 ifconfig 打印 . 





unsigned char if port; 

















在 多 端口 设备 中 使 用 的 端口 ， 例 如， 这 个 成 员 用 在 同时 支持 同 轴线 
(IF PORT _10BASE2) 和 双 绞 线 (IF PORT 100BSAET) 以 太 网 连接 ， 完 整 的 已 知 端口 类 
型 设置 定义 在 《linux/netdevie. h>》. 








unsigned char dma; 


设备 分 配 的 DMA 通道 . 这 个 成 员 只 在 某 些 外 设 总 线 时 有 意义 ， 例 如 ISA， 它 不 在 
设备 驱动 自身 以 外 使 用 ， 只 是 为 了 信息 目的 ( 在 ifconfig ) 中 . 


17. 3. 3， 接 口 信息 
有 关 接 口 的 大 部 分 信息 由 ether setup 函数 正确 设置 (或 者 任何 其 他 对 给 定 人 硬件 类 型 适合 


的 设置 函数 ).， 以太 网 卡 可 以 依赖 这 个 通用 的 函数 设置 大 部 分 这 些 成 员 ， 但 是 flags 和 
dev addr 成 员 是 特定 设备 的 ， 必 须 在 初始 化 时 间 明 确 指定 . 























一 些 非 以 太 网 接口 可 以 使 用 类 似 ether setup 的 帮助 函数 . deviers/net/net init.c 输 
出 了 一 些 类 似 的 函数 ， 包 括 下 列 : 


void ltalk setup(struct net device *dev); 
设置 一 个 LocalTalk 设备 的 成 员 
void fc setup(struct net device *dev); 
初始 化 光 通 道 设备 的 成 员 
void fddi setup(struct net device *dev); 
配置 一 个 光纤 分 布 数据 接口 (FDDI) 网 络 的 接口 
void hippi setup(struct net device *dev); 


预备 给 一 个 高 性 能 并 行 接口 (HIPPI) 的 高 速 互 连 驱 动 的 成 员 
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void tr setup(struct net device *dev); 








处 理 令 牌 环 网 络 接口 的 设置 

















大 部 分 设备 会 归于 这 些 类 别 中 的 一 类 如果 你 的 是 全 新 和 不 同 的 ， 但 是 ， 你 需要 手工 赋值 
下 面 的 成 员 : 


unsigned short hard header len; 








硬件 头 部 长 度 ， 就 是 ， 被 发 送 报 文 前 面 在 IP 头 之 前 的 字 节 数 ， 或 者 别 的 协议 信息 . 
对 于 以 太 网 接口 hard header len 值 是 14 (ETH HLEN). 





unsigned mtu; 





最 大 传输 单元 MTU). 这 个 成 员 是 网 络 层 用 作 驱 动 报 文 传输 ， 以 太 网 有 一 个 1500 
字 节 的 MTU (ETH DATA LEN). 这 个 值 可 用 ifconfig 改变 . 


unsigned long tx queue len; 


设备 发 送 队 列 中 可 以 排队 的 最 大 帧 数 ， 这 个 值 由 ether setup 设置 为 1000， 但 是 
你 可 以 改 它 ， 例 如 ，plip 使 用 10 来 避免 浪费 系统 内 存 ( 相 比 真 实 以 太 网 接口 ， 
plip 有 一 个 低 些 的 吞吐 量 )， 





unsigned short type; 


接口 的 硬件 类 型 ， 这 个 type 成 员 由 ARP 用 来 决定 接口 支持 什么 样 的 硬件 地 址 . 
对 以 太 网 接口 正确 的 值 是 ARPHRD ETHER， 这 是 由 ether setup 设置 的 值 ， 可 认识 
的 类 型 定义 于 《linux/if arp.h». 














unsigned char addr len; 
unsigned char broadcast[MAX ADDR LEN]; 
unsigned char dev addr[MAX ADDR LEN]; 


硬件 (MAC) 地 址 长 度 和 设备 硬件 地 址 ， 以太 网 地 址 长 度 是 6 个 字 节 ( 我 们 指 的 是 
接口 板 的 硬件 ID )， 广 播 地 址 由 6 个 Oxff 字 节 组 成 ; ether_setup 安排 成 正 胡 
的 值 ， 设备 地 址 ， 另 外 ， 必 须 以 特定 于 设备 的 方式 从 接口 板 读 出 ， 驱 动 应 当 将 它 拷 
贝 到 dev addr. 硬件 地 址 用 来 产生 正确 的 以 太 网 头 ， 在 报 文 传递 给 驱动 发 送 之 前 . 
snull 设备 不 使 用 物理 接口 ， 它 创造 自己 的 硬件 接口 . 























unsigned Short flags; 
int features; 


接口 标志 (下 面 详 述 ) 
这 个 flags 成 员 是 一 个 位 掩 码 ， 包 括 下 面 的 位 值 ，IFF ”前缀 代表 “interface flags”. 


有 些 标志 由 内 核 管理 ， 有 些 由 接口 在 初始 化 时 设置 来 表明 接口 的 能 力 和 其 他 特性 ， 有 效 的 
标志 ， 对 应 于 <linux/if. h>, F: 
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IFF UP 


对 驱动 这 个 标志 是 只 读 的 内 核 打 开 它 当 接 口 激 活 并 准备 号 传送 报 文 时 . 
IFF_BROADCAST 


这 个 标志 (由 网 络 代码 维护 ) 说明 接口 允许 广播 ， 以太 网 板 是 这 样 . 








IFF DEBUG 





这 个 标识 了 调试 模式 ， 这 个 标志 用 来 控制 你 的 printk 调用 的 复杂 性 或 者 用 于 其 他 











调试 目的 .尽管 当前 没有 intree 驱动 使 用 这 个 标志 ， 它 可 以 通过 ioctl 来 设置 
和 重 置 ， 你 的 驱动 可 用 它 . misc-progs/netifdebug 程序 可 以 用 来 打开 或 关闭 这 个 
标志 . 


IFF LOOPBACK 


这 个 标志 应 当 只 在 环 回 接口 中 设置 ， 内 核 检查 IFF LOOPBACK ， 以 代替 便 连 线 lo 
名 子 作 为 一 个 特殊 接口 . 


IFF POINTOPOINT 


这 个 标志 说 明 接 口 连接 到 一 个 点 对 点 链 路 ， 它 由 张 动 设置 或 者 ， 有 时 ， 由 
ifconfig. 例如 ，plip 和 PPP 驱动 设置 它 . 


IFF NOARP 











这 个 说 明 接口 不 能 进行 ARP. 例如， 点 对 点 接口 不 需要 运行 ARP， 它 只 能 增加 额外 
的 流量 却 没 有 任何 有 用 的 信息 ，snull 在 没有 ARP 能 力 的 情况 下 运行 ， 因 此 它 设 
置 这 个 标志 . 








IFF PROMISC 








这 个 标志 设置 (由 网 络 代 码 ) 来 激活 混杂 操作 ， 缺 省 地 ， 以 太 网 接口 使 用 硬件 过 滤器 
来 保证 它们 只 接收 广播 报 文 和 直接 到 接口 硬件 地 址 的 报 文 ， 报 文 嗅 探 器 ， 例 如 
tcpdump， 在 接口 上 设置 混杂 模式 来 存 取 在 接口 发 送 介质 上 经 过 的 所 有 报 文 ， 








IFF MULTICAST 








驱动 设置 这 个 标志 来 表示 接口 能 够 组 播发 送 ， ether_setup 设置 IFF MULTICAST 
缺 省 地 ， 因 此 如 果 你 的 驱动 不 支持 组 播 ， 必 须 在 初始 化 时 清除 这 个 标志 . 











IFF ALLMULTI 


这 个 标志 告知 接口 接收 所 有 的 组 播报 文 . 内 核 在 主机 进行 组 播 路 由 时 设置 它 ， 前 提 
是 IFF MULTICAST 置 位 ，IFF_ALLMULTI 对 驱动 是 只 读 的 .组 播 标志 在 本 章 后 面 的 
“组 播 一 节 中 用 到 . 
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IFF MASTER 
IFF SLAVE 








这 些 标志 由 负载 均衡 代码 使 用 ， 接 口 驱 动 不 需要 知道 它们 ， 


IFF PORTSEL 
IFF AUTOMEDIA 


这 些 标志 指出 设备 可 以 在 多 个 介质 类 型 间 切 换 ; 例如， 无 屏蔽 双 绞 线 (UTP) 和 [n] 
轴 以 太 网 电缆. 如果 IFF AUTOMEDIA 设置 了 ， 设 备 自动 选择 正确 的 介质 ， 特 别 地 ， 
内 核 一 个 也 不 使 用 这 2 个 标志 . 





IFF DYNAMIC 





这 个 标志 ， 由 驱动 设置 ， 指 出 接口 的 地 址 能 够 变化 ， 目 前 内 核 没有 使 用 . 
IFF_RUNNING 


这 个 标志 指出 接口 已 启动 并 在 运行 ， 它 大 部 分 是 因为 和 BS 兼容 内 核 很 少 用 它 . 
大 部 分 网 络 驱 动 不 需 要 担心 IFF_RUNNING. 














IFF NOTRAILERS 


在 Linux 中 不 用 这 个 标志 ， 为 了 BD 兼容 才 存 在 . 








当 一 个 程序 改变 IFF UP, open 或 者 stop 设备 方法 被 调用 . 进而， 当 IFF UP 或 者 任何 
别 的 标志 修改 了 ，set_multicast list 方法 被 调用 ， 如 果 驱 动 需要 进行 某 些 动作 来 响应 
标志 的 修改 ， 它 必须 在 set multicast list 中 采取 动作 ， 例 如 ， 当 IFF PROMISC 被 置 
位 或 者 复位 ，set_multicast_list 必须 通知 板 上 的 便 件 过 滤器 .这 个 设备 方法 的 责任 在 ” 
组 播 一 节 中 讲解 . 























成 员 由 驱动 设置 来 告知 内 核 关 于 任何 的 接口 拥有 的 特别 硬件 能 
; 别 的 就 超出 了 本 书 范围 ， 完 整 的 集合 是 : 


Ht 


结构 net device 的 特 + 
我 们 将 谈论 一 些 这 些 特 


NETIF F SG 
NETIF F FRAGLIST 


2 个 标志 控制 发 散 /汇聚 LO 的 使 用 ， 如 果 你 的 接口 可 以 发 送 一 个 报 文 ， 它 由 几 个 
不 同 的 内 存 段 组 成 ， 你 应 当 设 置 NETIF F SG， 当然， 你 不 得 不 实际 实现 发 散 /汇聚 
I/0( 我 们 在 发散 /汇聚 一 节 中 描述 如 何 做 ). NETIF F FRAGLIST 表明 你 的 接口 
能 够 处 理 分 段 的 报 文 ; 在 2.6 中 只 有 环 回 驱动 做 这 一 点 . 














注意 内 核 不 对 你 的 设备 进行 发 散 /汇聚 1/0 操作 ， 如 果 它 没有 同时 提供 某 些 校 验 和 
形式 .理由 是 ， 如 果 内 核 不 得 不 跨 过 一 个 分 片 的 ( 非 线 性 ”) 的 报 文 来 计算 校 验 和 |， 
它 可 能 也 拷贝 数据 并 同时 接合 报 文 . 





NETIF F IP CSUM 
NETIF F NO CSUM 
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NETIF F HW CSUM 





这 些 标志 都 是 告知 内 核 ， 不 需要 给 一 些 或 所 有 的 通过 这 个 接口 离开 系统 的 报 文 进行 
校 验 ， 如 果 你 的 接口 可 以 校 验 IP 报 文 但 是 别 的 不 行 ， 就 设置 NETIF F IP CSUM. 
如 果 这 个 接口 不 曾 要 求 校 验 和 ， 就 设置 NETIF_F_NO_CSUM， 环 回 驱动 设置 了 这 个 标 
志 ，snull 也 设置 ; 因为 报 文具 通过 系统 内 存 传送 ， 对 它们 来 说 没有 机 会 (1 跳 ) 
被 破坏 ， 没 有 必要 校 验 它 们 ， 如 果 你 的 人 硬件 自己 做 校 验 ， 设 置 NETIF F HW CWSUM. 

















NETIF F HIGHDMA 


设置 这 个 标志 ， 如 果 你 的 设备 能 够 对 高 端 内 存 进 行 DMA， 没 有 这 个 标志 ， 所 有 提供 
给 你 的 驱动 的 报 文 在 低 端 内 存 分 配 ， 














NETIF F HW VLAN TX 
NETIF F HW VLAN RX 
NETIF F HW VLAN FILTER 


NETIF F VLAN CHALLENGED 


这 些 选项 描述 你 的 硬件 对 802. 1q VLAN 报 文 的 支持 .VLAN 文 持 超出 我 们 本 章 的 内 
Tk. WMR VLAN 报 文 使 你 的 设备 混乱 〈 其 实 不 应 该 )， 设 置 标志 
NETIF F VLAN CHALLENGED. 











NETIF F TSO 


如 果 你 的 设备 能 够 进行 TCP 分 段 卸 载 ， 设 置 这 个 标志 . TSO 是 一 个 我 们 在 这 不 涉 
及 的 高 级 特性 . 


17. 3. 4， 设 备 方法 
如 同 在 字符 和 块 驱动 的 一 样 ， 每 个 网 络 设备 声明 能 操作 它 的 函数 ， 本 节 列 出 能 够 对 网 络 接 


口 进行 的 操作 ， 有 些 操作 可 以 留 作 NULL， 别 的 常常 是 不 被 触动 的 ， 因 为 ether setup 给 
它们 安排 了 合适 的 方法 . 














网 络 接口 的 设备 方法 可 分 为 2 组 : 基本 的 和 可 选 的 ， 基 本 方法 包括 那些 必需 的 能 够 使 用 
接口 的 ; 可 选 的 方法 实现 更 多 高 级 的 不 是 严格 要 求 的 功能 ， 下 列 是 基本 方法 : 














int (kopen) (struct net device *dev); 











打开 接口 .任何 时 候 ifconfig 激活 它 ， 接 口 被 打开 . open 方法 应 当 注 册 它 需要 
的 任何 系统 资源 ( L/O 口 ，IRQ，DMA， 等 等 )， 打 开 硬 件 ， 进 行 任何 别 的 你 的 设备 
要 求 的 设置 . 


int (kstop) (struct net device *dev); 








停止 接口 ， 接口 停 止 当 它 被 关闭 .这 个 函数 应 当 恢 复 在 打开 时 进行 的 操作 . 


int (khard start xmit) (struct sk buff *skb, struct net device *dev); 
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起 始 报 文 的 发 送 的 方法 . 完整 的 报 文 (协议 头 和 所 有 ) 包 含 在 一 个 socket 绥 存 区 
( sk buff ) 结构 .socket 组 存在 本 章 后 面 介 绍 . 











int (khard header) (struct sk buff *skb, struct net device *dev, unsigned 
short type, void *daddr, void *saddr, unsigned len); 





用 之 前 取 到 的 源 和 目的 硬件 地 址 来 建立 硬件 头 的 函数 (在 hard start xmit 前 调 
HD. 它 的 工作 是 将 作为 参数 传 给 它 的 信息 组 织 成 一 个 合适 的 特定 于 设备 的 硬件 头 . 
eth header 是 以 太 网 类 型 接口 的 缺 省 函数 ，ether_setup 针对 性 地 对 这 个 成 员 赋 
值 . 














int (krebuild header) (struct sk buff *skb); 











用 来 在 ARP 解析 完成 后 但 是 在 报 文 发 送 前 重建 便 件 头 的 函数 ， 以太 网 设备 使 用 的 
缺 省 的 函数 使 用 ARP. 支持 代码 来 填充 报 文 缺 失 的 信息 . 











void Cktx timeout) (struct net device *dev); 








由 网 络 代码 在 一 个 报 文 发 送 没 有 在 一 个 合理 的 时 间 内 完成 时 调用 的 方法 ， 可 能 是 于 
失 一 个 中 断 或 者 接口 被 锁 住 ， 它 应 当 处 理 这 个 问题 并 恢复 报 文 发 送 . 





struct net device stats *(*get stats) (struct net device *dev); 











任何 时 候 当 一 个 应 用 程序 需要 获取 接口 的 统计 信息 ， 调 用 这 个 方法 ， 例 如 ， 当 
ifconfig 或 者 netstat -i 运行 时 ，snull 的 一 个 例子 实现 在 “统计 信息 “一 节 中 





介绍 . 


int (*set config) (struct net device *dev, struct ifmap *map) ; 





改变 接口 配置 ， 这 个 方法 是 配置 驱动 的 入 口 点 ， 设 备 的 I/O 地 址 和 中 断 号 可 以 在 
运行 时 使 用 set config 来 改变 .这 种 能 力 可 由 系统 管理 员 在 接口 没有 探测 到 时 使 
用 . 现代 硬件 正常 的 驱动 一 般 不 需要 实现 这 个 方法 . 





























剩 下 的 设备 操作 是 可 选 的 : 


int weight; 
int (poll) (struct net device *dev; int *quota); 





由 适应 NAPI 的 驱动 提供 的 方法 ， 用 来 在 查询 模式 下 操作 接口 ， 中 断 关 闭 着 . NAPI 
( 以 及 weight 成 员 ) 在 “接收 中 断 缓 解 一 节 中 涉及 . 








void (*poll controller) (struct net device *dev); 








在 中 断 关 闭 的 情况 下 ， 要 求 驱 动 检查 接口 上 的 事件 的 函数 . 它 用 于 特殊 的 内 核 中 的 
网 络 任务 ， 例 如 远程 控制 全 和 使 用 网 络 的 内 核 调 试 . 





int (kdo ioctl) (struct net device *dev, struct ifreq *ifr, int cmd); 
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处 理 特定 于 接口 的 ioctl 命令 ，( 这 些 命令 的 实现 在 "定制 ioclt fm — pd 
述 ) 相应 的 net device 结构 中 的 成 员 可 留 为 NULL， 如 果 接口 不 需要 任何 特定 于 接 
口 的 命令 . 

















void (*set multicast list) (struct net device *dev); 





当 设 备 的 组 播 列 表 改 变 和 当 标 志 改 变 时 调用 的 方法 .详情 见 " 组 播 一 节 ， 以 及 一 
例子 实现 . 





int (*set mac address) (struct net device *dev, void *addr); 





如 果 接 口 文 持 改变 它 的 硬件 地 址 的 能 力 ， 可 以 实现 这 个 函数 ， 很 多 接口 根本 不 文 持 
这 个 能 力 ， 其 他 的 使 用 缺 省 的 eth mac adr 实现 (在 deivers/net/net init.c). 
eth mac addr 只 拷贝 新 地 址 到 dev->dev addr， 只 在 接口 没有 运行 时 作 这 件 事 . 
使 用 eth mac addr 的 驱动 应 当 在 它们 的 open 方法 中 自 dev->dev addr 里 设置 
硬件 MAC 地 址 . 

















int (*change mtu) (struct net device *dev, int new mtu); 





当 接 口 的 最 大 传输 单元 (MTU 改变 时 动作 的 函数 .如 果 用 户 改 变 MTU 时 驱动 需要 
做 一 些 特殊 的 事情 ， 它 应 当 声 明 它 的 自己 的 函数 ; 否则 ， 缺 省 的 会 将 事情 做 对 . 
snull 有 对 这 个 函数 的 一 个 模板 ， 如 果 你 有 兴 








int (kheader cache) (struct neighbour *neigh, struct hh cache *hh); 








header cache 被 调用 来 填充 hh cache 结构 ， 使 用 一 个 ARP 请 求 的 结果 . 几乎 全 
部 类 似 以 太 网 的 驱动 可 以 使 用 缺 省 的 eth header cache 实现 . 








int (kheader cache update) (struct hh cache *hh, struct net device *dev, 
unsigned char *haddr); 











在 响应 一 个 变化 中 ， 更 新 hh cache 结构 中 的 目的 地 址 的 方法 . 以太 网 设备 使 用 


eth header cache update. 





int (khard header parse) (struct sk buff *skb, unsigned char *haddr); 





hard header parse 方法 从 包含 在 skb 中 的 报 文中 抽取 源 地 址 ， 找 贝 到 haddr 的 
缓存 区 ， 函 数 的 返回 值 是 地 址 的 长 度 ， 以 太 网 设备 通常 使 用 eth header parse. 


17. 3. 5， 公 用 成 员 


结构 net device 剩 下 的 数据 成 员 由 接口 使 用 来 持 有 有 用 的 状态 信息 .有些 是 ifconfig 
和 netstat 用 来 提供 给 用 户 关 于 当前 配置 的 信息 . 因此， 接口 应 当 给 这 些 成 员 赋 值 : 






































unsigned long trans start; 
unsigned long last rx; 
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保存 一 个 jiffy 值 的 成 员 ， 驱 动 负责 分 别 更 新 这 些 值 ， 当 开始 发 送 和 收 到 一 个 报 
XH. trans start 值 被 网 络 子 系统 用 来 探测 发 送 器 加 锁 . last rx 目前 没有 用 到 ， 
但 是 驱动 应 当 尽 量 维护 这 个 成 员 以 备 将 来 使 用 . 

















int watchdog timeo; 


网 络 层 认 为 一 个 传送 超时 发 生前 应 当 过 去 的 最 小 时 间 ( 按 jiffy 计算 )， 调 用 驱动 
HJ tx timeout PK. 


void *priv; 


filpOprivate data 的 对 等 者 ， 在 现代 的 驱动 里 ， 这 个 成 员 由 alloc netdev 设 
置 ， 不 应 当 直 接 存 取 ; 使 用 netdev_priv RE. 











struct dev mc list *mc list; 
int mc count; 


处 理 组 播发 送 的 成 员 ，mc_count 是 me list 中 的 项 数目 ， 更 多 细节 见 “ 组 播 “一 节 . 











spinlock t xmit lock; 
int xmit lock owner; 


xmit lock 用 来 避免 对 驱动 的 hard start xmit AAA UH. 
xmit lock owner 是 已 获得 xmit lock 的 CPU 号 ， 驱 动 应 当 不 改变 这 些 成 员 的 值 . 











结构 net device 中 有 其 他 的 成 员 ， 但 是 网 络 驱动 用 不 着 它们 . 


17.4. TF 5 XH] 


我 们 的 驱动 可 以 在 模块 加 载 时 或 者 内 核 启动 时 探测 接口 。 在 接口 能 够 承载 报 文 前 ， 但 是 ， 
内 核 必 须 打开 它 并 分 配 一 个 地 址 给 它 ， 内 核 打 开 或 者 关闭 一 个 接口 对 应 ifconfig 命令 . 




















当 ifconfig 用 来 给 接口 安排 一 个 地 址 ， 它 做 2 个 任务 ， 第 一 ， 它 通过 
ioctl(SIOCSIFADDR) ( Socket I/0 Control Set Interface Address) 来 安排 地 址 . 接着 
它 设 置 dev->flag 的 IFF UP 位 ， 通 过 ioctl(SIOCSIFFLAGS) ( Socket I/O Control 
Set Interface Flags) 来 打开 接口 . 





目前 为 止 ，ioct1(SIOCSIFADDR) 不 做 任何 事 .， 没有 驱动 函数 被 调用 一 这 个 任务 是 独立 
于 设备 的 ， 并 且 是 内 核实 现 它 .后 面 的 命令 (ioct1l (SIOCSIFFLAGS))， 但 是 ， 为 设备 调用 
open 方法 . 








相似 地 ， 当 接口 关闭 ，ifconfig 使 用 ioctl(SIOCSIFFLAGS) 来 清除 IFF UP， 并 且 stop 
方法 被 调用 . 











2 个 设备 方法 都 返回 0 在 成 功 时 ， 并 且 出 错时 返回 负 值 . 
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目前 为 止 的 实际 代码 ， 驱 动 不 得 不 进行 许多 与 字符 和 块 驱动 同样 的 任务 ，open 请 求 任何 
它 需 要 的 系统 资源 并 且 告 知 接口 启动 ，stop 关闭 接口 并 释放 系统 资源 ， 网 络 驱 动 必 须 进 
行 一 些 附 加 的 步骤 在 open 时 ， 但 是 . 











第 一 ， 硬 件 (MAC) 地 址 需要 从 硬件 设备 拷贝 到 dev->dev_addr， 在 接口 可 以 和 外 部 世界 
通讯 之 前 ， 硬 件 地 址 接着 在 open 时 拷贝 到 设备 ，snull 软件 接口 在 open 里 面 安排 它 ; 
它 只 是 使 用 了 一 个 长 为 BTH_ALEN 的 字符 串 伪造 了 一 个 硬件 号 ，ETH_ALEN 是 以 太 网 硬件 
地 址 长 度 . 








open 方法 应 当 也 启动 接口 的 发 送 队 列 ( 允许 它 接受 发 送 报 文 )， 一 旦 它 准 备 好 启动 发 送 
数据 ， 内 核 提供 了 一 个 函数 来 启动 队列 : 





void netif start queue(struct net device *dev); 


snull 的 open 代码 看 来 如 下 : 


int snull open(struct net device *dev) 
{ 
/* request region(), request irq( ), .... (like fops->open) */ 
/* 
* Assign the hardware address of the board: use ”\OSNULx”, where 
* x is 0 or 1. The first byte is ' V0! to avoid being a multicast 
* address (the first byte of multicast addrs is odd). 
*/ 
memcpy (dev-^dev addr, "XOSNULO^, ETH ALEN); 
if (dev == snull devs[1]) 
dev-^»dev addr[ETH ALEN-1]-*; /* NOSNULI */ 
netif start queue (dev); 
return 0; 


} 





如 你 所 见 ， 在 缺乏 真实 硬件 的 情况 下 ， 在 open 方法 中 没什么 可 做 .stop 方法 也 一 样 ; 
它 只 是 反 转 open 的 操作 ， 因 此 ， 实 现 stop 的 函数 常常 称 为 close 或 者 release. 


int snull release(struct net device *dev) 


{ 


/* release ports, irq and such -- like fops->close */ 
netif stop queue (dev); /* can't transmit any more */ 
return 0; 

} 

函数 : 


void netif stop queue(struct net device *dev); 


是 netif start queue 的 对 立 面 ; 它 标志 设备 为 不 能 再 发 送 任何 报 文 ， 这 个 函数 必须 在 
接口 关闭 ( 在 stop 方法 中 ) 时 调用 ， 但 以 可 用 于 和 暂时 停止 发 送 ， 如 下 一 节 中 解释 的 . 


17. 5， 报 文 传送 
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网 络 接口 进行 的 最 重要 任务 是 数据 发 送 和 接收 ， 我 们 从 发 送 开始 ， 因 为 它 稍微 易 懂 一 些 . 











传送 指 的 是 通过 一 个 网 络 连 接 发 送 一 个 报 文 的 行为 无论 何 时 内 核 需 要 传送 一 个 数据 报 文 ， 
它 调用 驱动 的 hard start stransmit 方法 将 数据 放 在 外 出 队列 上 .每 个 内 核 处 理 的 报 文 
都 包含 在 一 个 socket 缓存 结构 ( 结构 sk buff ) 里 ， 定 义 见 1inux/skbuff.h>， 这 个 结 
MJ Unix 抽象 中 得 名 ， 用 来 代表 一 个 网 络 连接 ，socket.， 如 果 接 口 与 socket 没有 关系 ， 
每 个 网 络 报 文 属于 一 个 网 络 高 层 中 的 socket， 并 且 任 何 socket 输入 /输出 绥 存 是 结构 
struct sk buff 的 列表 .同样 的 sk buff 结构 用 来 存放 网 络 数据 历经 所 有 Linux 网 络 
子 系统 ， 但 是 对 于 接口 来 说 ， 一 个 socket 缓存 只 是 一 个 报 文 . 



































sk buff 的 指针 通常 称 为 skbp， 我 们 在 例子 代码 和 文本 里 遵循 这 个 做 法 . 








socket 缓存 是 一 个 复杂 的 结构 ， 内 核 提供 了 一 些 函 数 来 操作 它 ， 在 “Socket 缓存 “一 节 中 
描述 这 些 函数 ; 现在 ， 对 我 们 来 说 一 个 基本 的 关于 sk buff 的 事实 就 足够 来 编写 一 个 能 
工作 的 驱动 . 











传 给 hard start xmit 的 socket 绥 存 包含 物理 报 文 ， 它 应 当 出 现在 媒介 上 ， 以 传输 层 
的 头 部 结束 .接口 不 需要 修改 要 传送 的 数据 ，skb->data 指 问 要 传送 的 报 文 ，skb->len 
是 以 字 节 计 的 长 度 ， 如 果 你 的 驱动 能 够 处 理发 散 /汇聚 I/0， 情 形 会 稍稍 复杂 些 ; RIE 
发 散 /汇聚 I/0“ 一 节 中 说 它 . 





























snull 报 文 传送 代码 如 下 ; 网 络 传送 机 制 隔离 在 兄 外 一 个 函数 里 ， 因 为 每 个 接口 驱动 必须 
根据 特定 的 在 驱动 的 硬件 来 实现 它 : 


int snull tx(struct sk buff *skb, struct net device *dev) 
{ 
int len; 
char *data, shortpkt[ETH ZLEN]; 
struct snull priv *priv = netdev_priv (dev); 
data = skb-?data; 
len = skb-^len; 
if (len < ETH ZLEN) { 
memset(shortpkt, 0, ETH ZLEN); 
memcpy (shortpkt, skb->data, skb-^len); 
len = ETH ZLEN; 
data = shortpkt; 
} 
dev-^trans start = jiffies; /* save the timestamp */ 
priv->skb = skb; /* Remember the skb, so we can free it at interrupt time */ 





/* actual deliver of data is device-specific, and not shown here */ 
snull hw tx(data, len, dev); 
return 0; /* Our simple device can not fail */ 


} 





传送 函数 ， 因 此 ， 只 对 报 文 进行 一 些 合 理性 检查 并 通过 硬件 相关 的 函数 传送 数据 ， 注 意 ， 
但 是 ， 要 小 心 对 竺 传送 的 报 文 比 下 面 的 媒介 (对 于 snull， 是 我 们 虚拟 的 “以 太 网 ”) 支持 的 
最 小 长 度 要 短 的 情况 .许多 Linux 网 络 驱动 ( 其 他 操作 系统 的 也 是 ) 已 被 发 现在 这 种 情 
况 下 泄漏 数据 ， 不 是 产生 那 种 安全 漏洞 ， 我 们 拷贝 短 报 文 到 一 个 单独 的 数组 ， 这 样 我 们 可 
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以 清楚 地 零 填充 到 足够 的 媒介 要 求 的 长 度 ，( 我 们 可 以 安全 地 在 堆栈 中 放 数 据 ， 因 为 最 小 
KÆ 一 60 字 一 是 太 小 了 ). 








hard start xmit 的 返回 值 应 当 为 0 在 成 功 时 ; 此 时 ， 你 的 驱动 已 经 负责 起 报 文 ， 应 当 
尽 全 力 保 证 发 送 成 功 ， 并 且 必 须 在 最 后 释放 skb. dE 0 返回 值 指 出 报 文 这 次 不 能 发 送 ; 
内 核 将 稍 后 重 试 ， 这 种 情况 下 ， 你 的 驱动 应 当 停止 队列 直到 已 经 解决 导致 失败 的 情况 . 








“硬件 相关 ”的 传送 函数 ( snull_hw_tx ) 这 里 忽略 了 ， 因 为 它 完 全 是 来 实现 了 snull 设备 
的 戏法 ， 包 括 假 造 源 和 目的 地 址 ， 对 于 真正 的 网 络 驱 动作 者 没有 任何 吸引 力 ， 当然 ， 它 呈 
现在 例子 源码 里 ， 给 那些 想 进 入 并 看 看 它 如 何 工 作 的 人 . 


17.5.1. 控制 发 送 并 发 


hard start xmit 因数 由 一 个 net device 结构 中 的 自 旋 锁 (xmit_lock) 来 保护 避免 并 发 
调用 . 但是， 函数 一 返回 ， 它 有 可 能 被 再 次 调用 ， 当 软件 完成 指导 人 硬件 报 文 发 送 的 事情 ， 
但 是 硬件 传送 可 能 还 没有 完成 ， 对 snull 这 不 是 问题 ， 它 使 用 CPU 完成 它 所 有 的 工作 ， 
因此 报 文 发 送 在 传送 函数 返回 前 就 完成 了 . 




















真实 的 便 件 接口 ， 另 一 方面 ， 异 步 发 送 报 文 并 且 具 备 有 限 的 内 存 来 存放 外 出 的 报 文 ， 当 内 
存 耗 尽 (对 某 些 硬件 ， 会 发 生 在 一 个 单个 要 发 送 的 外 出 报 文 上 )， 驱 动 需 要 告知 网 络 系统 不 
要 再 启动 发 送 直 到 硬件 准备 好 接收 新 的 数据 . 




















这 个 通知 通过 调用 netif stop queue 来 实现 ， 这 个 前 面 介绍 过 的 函数 来 停止 队列 .一 旦 
你 的 驱动 已 停止 了 它 的 队列 ， 它 必须 安排 在 以 后 某 个 时 间 重 启 队 列 ， 当 它 又 能 够 接受 报 文 
来 发 送 了 .为 此 ， 它 应 当 调 用 : 


void netif wake queue (struct net device *dev); 





这 个 函数 如 同 netif_start_queue， 除 了 它 还 刺探 网 络 系统 来 使 它 又 启动 发 送 报 文 . 


大 部 分 现代 的 网 络 人 硬件 维护 一 个 内 部 的 有 多 个 发 送 报 文 的 队列 ;以 这 种 方式 ， 它 可 以 从 网 
络 上 获得 最 好 的 性 能 .这 些 设备 的 网 络 驱 动 必须 支持 在 如 何 给 定时 间 有 多 个 未 完成 的 发 送 ， 
但 是 设备 内 存 能 够 填 满 不 管 便 件 是 否 支 持 多 个 未 完成 发 送 ， 任 何 时 候 当 设备 内 存 填充 到 没 
有 空间 给 最 大 可 能 的 报 文 时 ， 驱 动 应 当 停 止 队 列 直到 有 空间 可 用 . 























如 果 你 必须 禁止 如 何 地 方 的 报 文 传送 ， 除 了 你 的 hard start xmit 函数 ( 也 许 ， 啊 应 一 
个 重新 配置 请 求 )， 你 想 使 用 的 函数 是 : 








void netif tx disable(struct net device *dev); 


这 个 函数 非常 象 netif_stop_queue， 但 是 它 还 保证 ， 当 它 返 回 时 ， 你 的 
hard start xmit 方法 没有 在 另 一 个 CPU 上 运行 ， 队列 能 够 用 netif wake queue 重启 ， 
如 常 . 


17. 5. 2， 传 送 超时 








"n 
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与 真实 硬件 打交道 的 大 部 分 驱动 不 得 不 预备 处 理 硬 件 偶尔 不 能 响应 ， 接 口 可 能 忘记 它们 在 
做 什么 ， 或 者 系统 可 能 丢失 中 断 ， 设 计 在 个 人 机 上 运行 的 设备 ， 这 种 类 型 的 问题 是 平 第 的 . 




















许多 驱动 通过 设置 定时 器 来 处 理 这 个 问题 ; 如 果 在 定时 器 到 期 时 操作 还 没 结束 ， 有 什么 不 
对 了 .网 络 系统 ， 本 质 上 是 一 个 复杂 的 由 大 量 定 时 器 控制 的 状态 机 的 组 合体 ， 因此， 网 络 
代码 是 一 个 合适 的 位 置 来 检测 发 送 超时 ， 作 为 它 正常 操作 的 一 部 分 . 























因此 ， 网 络 驱 动 不 需 要 担心 自己 去 检测 这 样 的 问题 ， 相 反 ， 它 们 只 需要 设置 一 个 超时 值 ， 
在 net device 结构 的 watchdog timeo 成 员 ， 这 个 超时 值 ， 以 jiffy 计 ， 应 当 是 够 长 
以 容纳 正常 的 发 送 延 迟 (例如 网 络 媒介 拥塞 引起 的 冲突 ). 





如 果 当 前 系统 时 间 超 过 设备 的 trans_start 时 间 至 少 time-out 值 ， 网 络 层 最 终 调用 驱 
动 的 tx timeout 方法 ， 这 个 方法 的 工作 是 是 进行 清除 问题 需要 的 工作 并 且 保证 任何 已 经 
开始 的 发 送 正确 地 完成 ， 特 别 地 ， 驱 动 没有 丢失 追踪 任何 网 络 代码 委托 给 它 的 socket 组 
fe. 






































snull 有 能 力 模仿 发 送 器 上 锁 ， 由 2 个 加 载 时 参数 控制 的 : 


static int lockup = 0; 
module param(lockup, int, 0); 


static int timeout - SNULL TIMEOUT; 
module param(timeout, int, 0); 





如 果 驱 动 使 用 参数 lockup=n 加 载 ， 则 模拟 一 个 上 锁 ， 一 旦 每 n 个 报 文 传送 了 ， 并 且 
watchdog timeo 成 员 设 为 给 定 的 时 间 值 ， 当 模拟 上 锁 时 ，snull 也 调用 
netif stop queue 来 阻止 其 他 的 发 送 企图 发 生 . 





snull 发 送 超时 处 理 看 来 如 此 : 





void snull tx timeout (struct net device *dev) 
{ 
struct snull priv *priv = netdev priv (dev); 
PDEBUG (“Transmit timeout at %ld, latency %ld\n”, jiffies, jiffies - dev-^trans start); 
/* Simulate a transmission interrupt to get things moving */ 
priv-2status = SNULL TX INTR; 
snull interrupt(0, dev, NULL); 
priv-»stats.tx errorst*; 
netif wake queue (dev); 
return; 


} 





当 发 生 传 送 超 时 ， 驱 动 必 须 在 接口 统计 量 中 标记 这 个 错误 ， 并 安排 设备 被 复位 到 一 个 干净 
的 能 发 送 新 报 文 的 状态 ， 当 一 个 超时 发 生 在 snull， 了 驱动 调用 snull_interrupt KAR” 
丢失” 的 中 断 并 用 netif wake queue 重启 队列 . 


17. 5. 3， 发 散 /汇聚 1/0 
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网 络 中 创建 一 个 发 送 报 文 的 过 程 包括 组 合 多 个 片 ， 报 文 数 据 必 须 从 用 户 空 间 拷贝 ， 由 网 络 
协议 栈 各 层 使 用 的 头 部 必须 同时 加 上 .， 这 个 组 合 可 能 要 求 相 当 数 量 的 数据 拷贝 ， 但 是 ， 如 
有 果 注 定 要 发 送 报 文 的 网 络 接口 能 够 进行 发 散 /汇聚 I/0， 报 文 就 不 需要 组 装 成 一 个 单个 块 ， 
量 的 拷贝 可 以 避免 ， 发散 /汇聚 L/O 也 从 用 户 空间 启动 ^ 零 拷贝 “网 络 发 送 . 















































内 核 不 传递 发 散 的 报 文 给 你 的 hard_start_xmit 方法 除非 NETIF F SG 位 已 经 设置 到 你 
的 设备 结构 的 特性 成 员 中 ， 如 果 你 已 设置 了 这 个 标志 ， 你 需要 查看 一 个 特殊 的 skb 中 的 
“shard info“ 成 员 来 确定 是 否 报 文 由 一 个 单个 片段 或 者 多 个 组 成 ， 并 且 如 果 需 要 就 找 出 发 
散 的 片段 ， 一 个 特殊 的 宏 定 义 来 存 取 这 个 信息 ; 它 是 skb shinfo. 发 送 潜在 的 分 片 报 文 
的 第 一 步 常 常 是 看 来 如 此 的 东 东 : 












































if (skb shinfo(skb)-^nr frags == 0) { 
/* Just use skb-»data and skb->len as usual */ 


} 











nr frags 成 员 告 知 多 少 片 要 用 来 建立 这 个 报 文 ， 如 果 它 是 0， 报 文 存 于 一 个 单个 片 中 ， 

可 以 如 常 使 用 data 成 员 来 存 取 . 但 是 ， 如 果 它 是 非 0， 你 的 驱动 必须 历经 并 安排 发 送 每 
一 个 单独 的 片 ，skb 结构 的 data 成 员 方 便 地 指向 第 一 个 片 (在 不 分 片 情况 下 ， 指 向 整个 
报 文 )， 片 的 长 度 必须 通过 从 skb-^len 〈 仍然 含有 整个 报 文 的 长 度 ) 中 减 去 skb- 
>data_len 计算 得 来 . 剩 下 的 片 会 在 称 为 frags 的 数组 中 找到 ，frags 在 共享 的 信息 结 
构 中 ; frags 中 每 个 入 口 是 一 个 skb frag struct 结构 : 




















struct skb frag struct { struct page *page; 
. ul6 page offset; 
. ul6 size; 


E 








如 你 所 见 ， 我 们 又 一 次 遇 到 page 结构 ， 不 是 内 核 虚 拟 地 址 ， 你 的 驱动 应 当 遍 历 这 些 分 片 ， 
为 DMA 传送 映射 每 一 个 ， 并 且 不 要 和 护 记 第 一 个 分 片 ， 它 由 skb 直接 指 着 .你 的 硬件 ， 当 
然 ， 必 须 组 装 这 些 分 片 并 作为 一 个 单个 报 文 发 送 它 们 . 注意， 如 果 你 已 经 设置 了 

NETIF F HIGHDMA 特性 标志 ， 一 些 或 者 全 部 分 片 可 能 位 于 高 端 内 存 . 


17. 6， 报 文 接收 


从 网 络 上 接收 报 文 比 发 送 它 要 难 一 些 ， 因 为 必须 分 配 一 个 sk buff 并 从 一 个 原子 性 上 下 
文中 递交 给 上 层 . 网 络 驱动 可 以 实现 2 种 报 文 接收 的 模式 : 中 断 驱 动 和 查询 ， 大 部 分 驱 
动 采用 中 断 驱 动 技术 ， 这 是 我 们 首先 要 涉及 的 . 有 些 高 带宽 适 配 卡 的 驱动 也 可 能 采用 查询 
BUR; 我 们 在 ”接收 中 断 缓解 “一 节 中 了 解 这 个 方法 . 





















































snull 的 实现 将 “ 便 件 “细节 从 设备 独立 的 常规 事务 中 分 离 。 因 此 ， 函 数 snull_rx 在 便 件 
收 到 报 文 后 从 snull 的 ”中断 “ 处 理 中 调用 ， 并 且 报 文 现在 已 经 在 计算 机 的 内 存 中 . 
snull rx 收 到 一 个 数据 指针 和 报 文 长 度 ; 它 唯 一 的 责任 是 发 走 这 个 报 文 和 运行 附加 信息 
给 上 层 的 网 络 代码 .这 个 代码 独立 于 获得 数据 指针 和 长 度 的 方式 . 




















void snull rx(struct net device *dev, struct snull packet *pkt) 


{ 
struct sk buff *skb; 
struct snull priv *priv = netdev priv (dev); 
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/* 
* 
The packet has been retrieved from the transmission 


* 

medium. Build an skb around it, so upper layers can handle it 
*/ 

skb = dev alloc skb(pkt-^datalen + 2); 

if (!skb) { 


if (printk ratelimit O) 
printk(KERN NOTICE ^snull rx: low on mem - packet dropped\n”); priv- 
>stats. rx dropped**; goto out; 
} 
memcpy (skb put (skb, pkt->datalen), pkt-^data, pkt-^datalen); 


/* Write metadata, and then pass to the receive level */ 
skb->dev = dev; 
skb->protocol = eth type trans (skb, dev); 
skb->ip summed = CHECKSUM UNNECESSARY; /* don’t check it */ 
priv-»stats.rx packets++; 
priv->stats. rx bytes += pkt-?datalen; 
netif rx(skb); 
out: 
return; 


} 








这 个 函数 足够 普通 以 作为 任何 网 络 驱动 的 一 个 模板 ， 但 是 在 你 有 信心 重用 这 个 代码 段 前 需 
要 一 些 解释 

















第 一 步 是 分 配 一 个 缓存 区 来 保存 报 文 ， 注意 缓存 分 配 函 数 (dev alloc skb) 需要 知道 数 
据 长 度 ， 函数 用 这 些 信 息 来 给 缓存 区 分 配 空 间 . dev alloc skb 使 用 atomic 优先 级 调用 
kmalloc ， 因 此 它 可 以 在 中 断 时 间 安 全 使 用 . 内核 提供 了 其 他 接口 给 socket 缓存 分 配 ， 

但 是 它们 不 值得 在 此 介绍 ; socket 组 存在 “socket 缓存 “一 节 中 详细 介绍 . 





























当然 ，dev_alloc_skb 的 返回 值 必 须 检 查 ，snull 这 样 做 了 .我 们 调用 

printk ratelimit 在 抱 急 失 败 之 前 ， 但 是 ， 每 秒 钟 产生 成 百 上 王 的 控制 台 消 息 是 完全 陷 
死 系统 和 隐藏 问题 的 真正 源头 的 好 方法 ; printk ratelimit 帮助 阻止 这 个 问题 ， 通 过 在 
有 太 多 输出 到 了 控制 台 时 返回 0， 事 情 需 要 慢 下 来 一 点 . 




















一 旦 有 一 个 有 效 的 skb 指针 ， 通 过 调用 memcpy， 报 文 数据 被 拷贝 到 缓存 区 ; skb put P 
数 更 新 缓存 中 的 数据 末尾 指针 并 返回 指向 新 建 空 间 的 指针 . 





如 果 你 在 编写 一 个 高 性 能 驱动 ， 为 一 个 可 以 进行 完全 上 总 线 占据 1/0 的 接口 ， 一 个 可 能 也 

优化 值得 在 此 考虑 下 .一些 驱动 在 报 文 接 收 前 分 配 sokcet 缓存 ， 接 着 使 接口 将 报 文 数据 
直接 放 入 socket 缓存 空间 ， 网 络 层 通过 在 可 DMA 的 空间 ( 如 果 你 的 设备 设置 了 

NETIF F HIGHDMA 标志 ， 这 个 空间 有 可 能 在 高 端 内 存 ) 中 分配 所 有 socket 缓存 来 配合 这 
个 策略 ， 这 样 避免 了 单独 的 填充 socket 缓存 的 拷贝 操作 ， 但 是 需要 小 心 缓存 区 的 大 小 ， 

因为 你 无 法 提前 知道 进来 的 报 文大 小 ，change_mtu 方法 的 实现 在 这 种 情况 下 也 重要 ， 

为 它 允 许 驱 动 对 最 大 报 文 大 小 改变 作出 响应 . 
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网 络 层 在 搞 懂 报 文 的 意思 前 需要 清楚 一 些 事情 ， 为 此 ，dev 和 protocol 成 员 必 须 在 缓存 
向 上 传递 前 赋值 .以 太 网 文 持 代 码 输出 一 个 帮助 函数 ( eth type trans )， 它 发 现 一 个 合 
适 值 来 赋 给 protocol.， 接着 我 们 需要 指出 校 验 和 要 如 何 进行 或 者 已 经 在 报 文 上 完成 
( snull 不 需要 做 任何 校 验 和 ). 对 于 skb-^ip summed 可 能 的 策略 有 : 


























CHECKSUM HW 





设备 已 经 在 硬件 里 做 了 校 验 ， 一 个 硬件 校 验 的 例子 使 APARC HE 接口 . 
CHECKSUM NONE 


校 验 和 还 没 被 验证 ， 必 须 由 系统 软件 来 完成 这 个 任务 ， 这 个 是 缺 省 的 ， 在 新 分 配 的 
绥 存 中 








CHECKSUM UNNECESSARY 





不 要 做 任何 校 验 . 这 是 snull 和 环 回 接口 的 策略 . 





你 可 能 奇怪 为 什么 校 验 和 状态 必须 在 这 里 指定 ， 当 我 们 已 经 在 我 们 的 net_device 结构 的 
特性 成 员 中 设置 了 标志 .答案 是 特性 标志 告诉 内 核 我 们 的 设备 如 何 对 符 外 出 的 报 文 ， 它 不 
用 于 进入 的 报 文 ， 相 反 ， 进 入 报 文 必须 单独 标记 . 











最 后 ， 驱 动 更 新 它 的 统计 计数 来 记录 收 到 一 个 报 文 。 统计 结构 由 几 个 成 员 组 成 ; 最 重要 
的 是 rx_packet，rx_bytes， 和 tx_bytes， 分 别 含 有 收 到 的 报 文 数目 ， 发 送 的 数目 ， 和 
发 送 的 字 节 总 数 .， 所 有 的 成 员 在 “统计 信息 “一 节 中 完全 描述 . 























报 文 接收 的 最 后 一 步 由 netif_rx 进行 ， 它 递交 socket RAE. 实际 上 netif rx 
返回 一 个 整数 ; NET RX SUCCESS(0) 意思 是 报 文成 功 接 收 ; 任何 其 他 值 指示 错误 . 有 3 

个 返回 值 (NET RX CN LOW, NET RX CN MOD, JW NET RX CN HIGH ) 指 出 网 络 子 系统 的 递 
增 的 拥塞 级 别 ; NET RX DROP. 意思 是 报 文 被 丢弃 .一 个 驱动 在 拥塞 变 高 时 可 能 使 用 这 些 值 
来 停止 输送 报 文 给 内 核 ， 但 是 ， 实 际 上 ， 大 部 分 驱动 忽略 从 netif rx 的 返回 值 ， 如 果 你 
在 编写 一 个 高 带宽 设备 的 有 驱动， 并且 希望 正确 人 处理 拥 塞 ， 最 好 的 办 法 是 实现 NAPI， 我 们 
在 快速 讨论 中 断 处 理 后 讨论 它 . 


17.7， 中 断 处 理 


大 部 分 硬件 接口 通过 一 个 中 断 处 理 来 控制 ， 硬 件 中 断 处 理 器 来 发 出 2 种 可 能 的 信号 : 一 
个 新 报 文 到 了 或 者 一 个 外 出 报 文 的 发 送 完成 了 ， 网 络 接口 也 能 够 产生 中 断 来 指示 错误 ， 例 
如 状态 改变 ， 等 等 . 


通常 的 中 断 过 程 能 够 告知 新 报 文 到 达 中 断 和 发 送 完 成 通知 的 区 别 ， 通 过 检查 物理 设备 中 的 
状态 寄存 器 . snull 接口 类 似 地 工作 ， 但 是 它 的 状态 字 在 软件 中 实现 ， 位 于 dev->priv. 
网 络 接口 的 中 断 处 理 看 来 如 此 : 



















































































static void snull regular interrupt(int irq, void *dev id, struct pt regs *regs) 
{ 

int statusword; 

struct snull priv *priv; 
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struct snull packet *pkt - NULL; 


/* 

* As usual, check the "device" pointer to be sure it is 
* really interrupting. 

* Then assign "struct device *dev^ 

*/ 


struct net device *dev = (struct net device *)dev id; 
/*... and check with hw if it's really ours */ 


/* paranoid */ 
if (!dev) 
return; 


/* Lock the device */ 
priv = netdev priv (dev); 
spin lock (&priv-?lock); 


/* retrieve statusword: real netdevices use I/O instructions */ 
statusword = priv-5status; 

priv-2status = 0; 

if (statusword & SNULL RX INTR) ( 


/* send it to snull rx for handling */ 
pkt = priv-?rx queue; 
if (pkt) ( 
priv-?rx queue = pkt-?next; 
snull rx(dev, pkt); 
} 
} 
if (statusword & SNULL TX INTR) ( 

/* a transmission is over: free the skb */ 
priv->stats. tx packets++; 
priv->stats. tx bytes += priv->tx packetlen; 
dev kfree skb (priv->skb) ; 

} 


/* Unlock the device and we are done */ 

spin unlock (&priv->1lock); 

if (pkt) snull release buffer (pkt) ; /* Do this outside the lock! */ 
return; 














中 断 处 理 的 第 一 个 任务 是 取 一 个 指向 正确 net device 结构 的 指针 .这 个 指针 通常 来 自作 
为 参数 收 到 的 dev id 指针， 








中 断 处 理 的 有 趣 部 分 处 理发 送 结束 的 情况 .在 这 个 情况 下 ， 统 计量 被 更 新 ， 调 用 
dev kfree skb 来 返回 socket 缓存 给 系统 ， 实 际 上 ， 有 这 个 函数 的 3 个 变 体 可 以 调用 : 











dev kfree skb(struct sk buff *skb); 
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这 个 版 本 应 当 在 你 知道 你 的 代码 不 会 在 中 断 上 下 文中 运行 时 调用 ， 因 为 snull 没 
有 实际 的 硬件 中 断 ， 我 们 使 用 这 个 版 本 . 





dev kfree skb irq(struct sk buff *skb); 





如 果 你 知道 会 在 中 断 处 理 中 释放 缓存 ， 使 用 这 个 版 本 ， 它 对 这 个 情况 做 了 优化 . 





dev kfree skb any(struct sk buff *skb); 





如 果 相 关 代 码 可 能 在 中 断 或 非 中 断 上 下 文 运行 时 ， 使 用 这 个 版 本 . 











最 后 ， 如 果 你 的 驱动 已 暂时 停止 了 发 送 队 列 ， 这 常常 是 用 netif wake queue 重启 它 的 地 
方 . 











报 文 的 接收 ， 相 比 于 发 送 ， 不 需要 特别 的 中 断 处 理 ， 调 用 snull_rx (我 们 已 经 见 过 ) 就 是 
全 部 所 需 ， 


17. 8， 接 收 中 断 缓解 


当 一 个 网 络 驱动 如 我 们 上 面 所 述 编写 出 来 ， 你 的 接口 收 到 每 个 报 文 都 中 断 处 理 器 ， 在 许多 
情况 下 ， 这 是 希望 的 操作 模式 ， 它 不 是 个 问题 然而， 高 带宽 接口 能 够 在 每 秒 内 收 到 几 千 
个 报 文 ， 这 个 样子 的 中 断 负载 下 ， 系 统 的 整体 性 能 会 受 损 害 . 


























作为 一 个 提高 高 端 Linux 系统 性 能 的 方法 ， 网 络 子 系统 开发 者 已 创建 了 一 种 可 选 的 基于 
查询 的 接口 ( 称 为 MPI. “查询 “可 能 是 一 个 不 妥 的 字 在 驱动 开发 者 看 来 ， 他 们 常常 看 
到 奉 询 是 不 灵巧 和 低 效 的， 查询 是 低 效 的 ， 但 是 ， 仅 仅 在 接口 没有 工作 做 的 时 候 被 查询 . 
当 系 统 有 一 个 处 理 大 流量 的 高 速 接口 时 ， 会 一 直 有 更 多 的 报 文 来 处 理 ， 在 这 种 情况 下 没有 
必要 中 上 断 处 理 器 ; 时 常 从 接口 收集 新 报 文 是 足够 的 . 



































停止 接收 中 断 能 够 减轻 相当 数量 的 处 理 器 负载 . 适应 NAPI 的 驱动 能 够 被 告知 不 要 输送 报 
文 给 内 核 ， 如 果 这 些 报 文 上 只 是 在 网 络 代码 里 因 拥 塞 而 被 丢弃 ， 这 样 能 够 在 最 需要 的 时 候 对 
性 能 有 帮助 . 由 于 各 种 理由 ，NAPI 驱动 也 比较 少 可 能 重 排序 报 文 . 




















不 是 所 有 的 设备 能 够 以 NAPI 模式 操作 ， 但 是 ， 一 个 NAPI 适应 的 接口 必须 能 够 存储 几 个 
报 文 ( 要 么 在 接口 卡 上 ， 要 么 在 内 存 内 DMA XB). 接口 应 当 能 够 禁止 中 断 来 接收 报 文 ， 却 
可 以 继续 因 成 功 发 送 或 其 他 事件 而 中 断 ， 有 其 他 微妙 的 事情 使 得 编写 一 个 适应 NAPI 的 驱 
动 更 有 难度 ; 详情 见 内 核 源码 中 的 Documentation/networking/NAPI HOWTO. txt. 











相对 少 有 张 动 实现 NAPI 接口 ， 如 果 你 在 编写 一 个 驱动 给 一 个 可 能 产生 大 量 中 断 的 接口 ， 
但 是 ， 花 点 时 间 来 实现 NAPI 会 被 证 明 是 很 值得 的 . 








snull 驱动 ， 当 用 非 零 的 use napi 参数 加 载 时 ， 在 NAPI 模式 下 操作 .在 初始 化 时 ， 我 
们 不 得 不 建立 一 对 格外 的 结构 net_device 的 成 员 : 








if (use napi) { 
dev->poll = snull poll; 
dev->weight = 2; 
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poll 成 员 必 须 设置 为 你 的 驱动 的 查询 函数 ; 我 们 简短 看 一 下 snull poll. weight 成 员 
描述 接口 的 相对 重要 性 : 有 多 少 流量 可 以 从 接口 收 到 ， 当 资源 紧张 时 ， 如 何 设置 weight 
参数 没有 严格 的 规则 ; 依照 惯例 ，10 Mps 以 太 网 接口 设置 weight 为 16， 而 快 一 些 的 
接口 使 用 64， 你 不 能 设置 weight 为 一 个 超过 你 的 接口 能 够 存储 的 报 文 数目 的 值 . 在 
snul1， 我 们 设置 weight 为 2， 作 为 一 个 演示 不 同 报 文 接收 的 方法 














H 








创建 适应 NAPI 的 驱动 的 下 一 步 是 改变 中 断 处 理 ， 当 你 的 接口 ( 它 应 当 在 接收 中 断 使 能 
启动 ) 示意 有 报 文 到 达 ， 中 断 处 理 不 应 当 处 理 这 个 报 文 ， 相反 ， 它 应 当 禁 止 后 面 的 接收 中 
断 并 告知 内 核 到 时 候 查 询 接 口 了 . 在 snull 的 “中 断 “ 处 理 里 ， 响 应 报 文 接收 中 断 的 代码 已 
变 为 如 下 : 























if (statusword & SNULL RX INTR) { 
snull rx ints(dev, 0); /* Disable further interrupts */ 
netif rx schedule (dev); 


} 








当 接 口 告 诉 我 们 有 报 文 来 了 ， 中 断 处 理 将 其 留 在 接口 中 ; 此 时 需要 的 所 有 东西 就 是 调用 
netif rx_schedule， 它 使 得 我 们 的 poll 方法 在 后 面 茶 个 时 候 被 调用 . 














poll 方法 有 下 面 原 型 : 

















int (*poll) (struct net device *dev, int *budget); 





snull 的 poll 方法 实现 看 来 如 此 : 


static int snull poll(struct net device *dev, int *budget) 
{ 
int npackets = 0, quota = min(dev-^quota, *budget); 
struct sk buff *skb; 
struct snull priv *priv = netdev priv (dev); 
struct snull packet **pkt; 





while (npackets € quota && priv->rx queue) { 
pkt = snull dequeue buf (dev); 
skb = dev alloc skb(pkt-^datalen + 2); 
if (! skb) { 
if (printk ratelimit Q) 
printk(KERN NOTICE “snull: packet droppedW ^); 
priv-?5stats.rx dropped++; 
snull release buffer (pkt) ; 
continue; 
} 
memcpy (skb_put (skb, pkt-^datalen), pkt->data, pkt-?datalen); 
skb-^dev = dev; 
skb-^protocol = eth type trans(skb, dev); 
skb->ip summed = CHECKSUM UNNECESSARY; /* don't check it */ 
netif receive skb(skb); 


/* Maintain stats */ 
npackets-*-*; 


priv->stats. rx packets-t*; 
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priv->stats.rx bytes += pkt->datalen; 
snull release buffer (pkt) ; 


/* If we processed all packets, we're done; tell the kernel and reenable ints */ 
*budget -= npackets; 

dev-?quota -= npackets; 

if (! priv->rx queue) { 

netif rx complete (dev) ; 

snull rx ints(dev, 1); 


} 


return 0; 


/* We couldn't process everything. */ 
return 1; 


} 








函数 的 中 心 部 分 是 关于 创建 一 个 保持 报 文 的 skb; 这 部 分 代码 和 我 们 之 前 在 snull_rx 中 


见 到 的 一 样 ， 但是， 有些 








东西 不 一 样 : 





budget 参数 提供 了 一 个 我 们 允许 传 给 内 核 的 最 大 报 文 数 目 ， 在 设备 结构 里 ，quota 


成 员 给 出 了 男 一 








PRA; poll 方法 必须 遵守 这 两 个 限制 中 的 较 小 者 ， 它 也 应 当 


以 实际 收 到 的 报 文 数目 递减 dev->quota 和 *budget. budget 值 是 当前 CPU 能 够 
从 所 有 接口 收 到 的 最 多 报 文 数目 ， 而 quota 是 一 个 舌 接 口 信 ， 常 常 在 初始 化 时 安 
排 给 接口 以 weight 为 起 始 . 

报 文 应 当 用 netif receive skb 递交 内 核 ， 而 不 是 netif rx. 








如 果 poll 方法 
调用 netif rx 
文 需要 处 理 . 



































能 够 在 给 定 的 限制 内 处 理 所 有 的 报 文 ， 它 应 当 重 新 使 能 接收 中 断 ， 














_complete 来 关闭 查询 ， 并 且 返 回 0， 返 回 值 1 指示 有 剩 下 的 报 








网 络 子 系统 保证 任何 给 定 的 设备 的 poll 方法 不 会 在 多 于 一 个 处 理 器 上 被 同时 调用 . 但 是 ， 
poll 调用 仍然 可 以 与 你 的 其 他 设备 方法 的 调用 并 发 . 


= NAPI 代表 new API” 

















; 网 络 黑客 们 精 于 创建 接口 却 疏 于 给 它们 起 名 . 








17. 9， 连 接 状态 的 改变 


网 络 连接 ， 根 据 定 义 ， 打 交道 本 地 系统 之 外 的 世界 . 因此， 它们 常 币 受 外 界 事件 的 影响 











并 且 和 它们 可 能 是 短暂 的 东西 ， 网 络 子 系统 需要 知道 网 络 连接 的 上 或 下 ， 它 提 供 了 几 个 驱动 




















可 用 来 传达 这 种 信息 的 函数 . 
大 部 分 涉及 实际 的 物理 连接 的 网 络 技术 提供 有 一 个 载波 状态 ; 载波 存在 说 明 人 硬件 存在 并 准 
备 好 ， 以 太 网 适配器 ， 例 如 ， 在 电线 上 感知 载波 信号 ; 当 一 个 用 户 绊 倒 一 根 电缆， 载波 消 














失 ， 连 接 断 开 ， 缺 省 地 ， 网 络 设备 假设 有 载波 信号 存在 .驱动 可 以 明确 改变 这 个 状态 ， 但 
是 ， 使 用 这 些 函 数 : 











void netif carrier off(struct net device *dev); 


456 


Linux[] [] (LinuxIDC.com) [] [] [] Ubuntu;Fedora, SUSH[] O O O 0O IO [] O Linux[] HD] E] LU] L] L] 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 


void netif carrier on(struct net device *dev); 


如 果 你 的 驱动 检测 到 它 的 一 个 设备 载波 丢失 ， 它 应 当 调用 netif carrier off 来 通知 内 
核 这 个 改变 ， 当 载波 回来 时 ， 应 当 调 用 netif carrier on， 一些 驱 动 也 调用 

netif carrier off 当 进 行 大 的 配置 改变 时 (例如 媒介 类 型 ) ;一 旦 适配器 已 经 完成 复位 它 
自身 ， 新 载波 被 检测 并 且 恢 复 流量 . 








一 个 整数 函数 也 存在 : 


int netif carrier ok(struct net device *dev); 





它 可 用 于 测试 当前 载波 状态 ( 如 同 设 备 结构 中 所 反映 的 ) ; 
17.10. Socket 缓存 
我 们 现在 已 经 涵盖 到 了 大 部 分 关于 网 络 接口 的 问题 ， 还 缺乏 的 是 对 sk buff 结构 的 详细 


描述 . 这 个 结构 处 于 Linux 内 核 网 络 子 系统 的 核心 ， 我 们 现在 介绍 这 个 结构 的 重要 成 员 和 
操作 它们 的 函数 . 























尽管 没有 严格 要 求 去 理解 sk buff 的 内 部 ， 能 够 查看 它 的 内 容 的 能 力 在 你 追踪 问题 和 试 
图 优化 代码 时 是 有 帮助 的 例如， 如 果 你 看 loopback. c， 你 会 发 现 一 个 基于 对 sk_buff 
内 部 了 解 的 优化 ， 这 里 适用 的 通常 的 警告 是 : 如 果 你 编写 利用 sk buff 结构 的 知识 的 代 
码 ， 你 应 当 准 备 好 在 以 后 内 核发 行 中 它 坏 掉 ， 仍 然 ， 有 时 性 能 优势 值得 额外 的 维护 开销 . 


























我 们 这 里 不 会 描述 整个 结构 ， 只 是 那些 在 驱动 里 可 能 用 到 的 .如 果 你 想 看 到 更 多 ， 你 可 以 
查看 《linux/skbuff.h>， 那 里 定义 了 结构 和 函数 原型 ， 关于 如 何 使 用 这 些 成 员 和 函数 的 
额外 的 细节 可 以 通过 搜索 内 核 源码 很 容易 获取 . 

17.10.1. 重要 成 员 变 量 


这 里 介绍 的 成 员 是 驱动 可 能 需要 存 取 的 .以 非特 别 的 顺序 列 出 它们 . 





























struct net device **dev; 


接收 或 发 送 这 个 缓存 的 设备 


union ( /* ... */ } h; 
union { /* ... */ } nh; 
union { /*... */} mac; 





指向 报 文中 包含 的 各 级 的 头 的 指针 ，union 中 的 某 个 成 员 都 是 一 个 不 同 数据 结 构 类 
型 的 指针 . h 含有 传输 层 头 部 指针 (例如 ，struct tcphdr *th); nh 包含 网 络 层 头 
部 (例如 struct iphdr *iph); 以 及 mac 包含 链 路 层 头 部 指针 (例如 struct 
ethkr * ethernet). 





如 果 你 的 驱动 需要 查看 TCP 报 文 的 源 和 目的 地 址 ， 可 以 在 skb->h. th 中 找到 .看 
头 文件 来 找到 全 部 的 可 以 这 样 存 取 的 头 部 类 型 , 
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注意 网 络 驱 动 负 责 设置 进入 报 文 的 mac 指针 ， 这 个 任务 正常 是 由 eth type trans 
处 理 ， 但 是 非 以 太 网 驱动 不 得 不 直接 设置 skb->mac. raw， 如 同 “ 非 以 太 网 头 部 “一 
TB. 














unsigned char *head; 
unsigned char *data; 
unsigned char *tail; 
unsigned char *end; 


用 来 寻 址 报 文中 数据 的 指针 .head 指向 分 配 内 存 的 开始 ，data 是 有 效 字 节 的 开始 
(并 且 常 常 稍微 比 head 大 一 些 )，tail 是 有 效 字 节 的 结尾 ，end 指向 tail 能 够 
到 达 的 最 大 地 址 .查看 它 的 男 一 个 方法 是 可 用 缓存 空间 是 skb->end - skb-^head, 
当前 使 用 的 空间 是 skb->tail - skb->data. 





























unsigned int len; 
unsigned int data len; 


len 是 报 文中 全 部 数据 的 长 度 ， 而 data len 是 报 文 存储 于 单个 片 中 的 部 分 的 长 度 . 
除非 使 用 发 散 / 汇 聚 I/0, data len 成 员 的 值 为 0. 





unsigned char ip summed; 


这 个 报 文 的 校 验 和 策略 ， 由 驱动 在 进入 报 文 上 设置 这 个 成 员 ， 如 在 报 文 接收 “一 他 
中 描述 的 . 





unsigned char pkt type; 





在 递送 中 使 用 的 报 文 分 类 .驱动 负责 设置 它 为 PACKET HOST ( 报 文 是 给 自己 的 )， 
PACKET_OTHERHOST (不 ， 这 个 报 文 不 是 给 我 的 )，PACKET_BROADCAST， 或 者 
PACKET MULTICAST. 以 太 网 驱动 不 显 式 修改 pkt type, K eth type trans 为 
> y 

E TA. 





shinfo(struct sk buff *skb); 
unsigned int shinfo(skb)-^nr frags; 
skb frag t shinfo(skb)-^frags; 


由 于 性 能 的 原因 ， 有 些 skb 信息 存储 于 一 个 分 开 的 结构 中 ， 它 在 内 存 中 紧 接 着 
skb， 这 个 “shared info” (这样 命 名 是 因为 它 可 以 在 网 络 代码 中 多 个 skb 拷贝 中 共 
享 ) 必须 通过 shinfo 宏 定 义 来 存 取 .这 个 结构 中 有 几 个 成 员 ， 但 是 大 部 分 超出 本 
书 的 范围 ， 我 们 在 “发 散 / 汇 聚 I/0” 一 节 中 见 过 nr_frags 和 frags. 

















在 结构 中 剩 下 的 成 员 不 是 特 另 


大 小 ， 等 等 . 


17. 10. 2， 作 用 于 socket. 缓存 的 函数 


有趣， 它们 用 来 维护 缓存 列表 ， 来 统计 socket 拥有 的 缓存 
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使 用 一 个 sk buff 结构 的 网 络 驱 动 利 用 正式 接口 函数 来 操作 它 ， 许 多 函数 操作 一 个 
socket 缓存 ; 这 里 是 最 有 趣 的 几 个 : 











struct sk buff *alloc skb(unsigned int len, int priority); 
struct sk buff *dev alloc skb(unsigned int len); 














分 配 一 个 缓存 区 .alloc_skb 函数 分 配 一 个 缓存 并 且 将 skb-^data 和 skb-^tail 
都 初始 化 成 skb->head. dev_alloc_skb 函数 是 使 用 GFP_ATOMIC 优先 级 调用 
alloc skb 的 快捷 方法 ， 并 且 在 skb-^head 和 skb->data 之 间 保 留 了 一 些 空间 . 
这 个 数据 空间 用 在 网 络 层 之 间 的 优化 ， 驱 动 不 要 动 它 . 














void kfree skb(struct sk buff *skb); 

void dev kfree skb(struct sk buff *skb); 
void dev kfree skb irq(struct sk buff *skb); 
void dev kfree skb any(struct sk buff *skb); 








释放 缓存 ， kfree skb 调用 由 内 核 在 内 部 使 用 .一 个 驱动 应 当 使 用 一 种 
dev kfree skb 的 变 体 : 在 非 中 断 上 下 文中 使 用 dev_ kfree_skb， 在 中 断 上 下 文中 
使 用 dev kfree skb irq， 或 者 dev kfree skb any 在 任何 2 种 情况 下 . 








unsigned char *skb put (struct sk buff *skb, int len); 
unsigned char * skb put(struct sk buff *skb, int len); 











更 新 sk buff 结构 中 的 tail 和 len 成 员 ; 它们 用 来 增加 数据 到 缓存 的 结尾 ， 
个 函数 的 返回 值 是 skb->tail 的 前 一 个 值 ( 换 名 话说 ， 它 指向 刚刚 创建 的 数据 空 
E). 驱动 可 以 使 用 返回 值 通过 引用 memcpy (skb put(...), data, len) 来 拷贝 数 
据 或 者 一 个 等 同 的 东 东 ， 两 个 函数 的 区 别 在 于 skb put 检查 以 确认 数据 适合 缓存 ， 
而 ^ skb put 省 略 这 个 检查 . 








unsigned char *skb push(struct sk buff *skb, int len); 
unsigned char * skb push(struct sk buff *skb, int len); 





递减 skb-»data 和 递增 skb->len 的 函数 .它们 与 skb put 相似 ， 除 了 数据 是 添 
加 到 报 文 的 开始 而 不 是 结尾 . 返回 值 指 向 刚刚 创建 的 数据 空间 ， 这些 函数 用 来 在 发 
送 报 文 之 前 添加 一 个 硬件 头 部 ， 又 一 次 ，__skb_push 不 同 在 它 不 检查 空间 是 否 足 
够 . 











int skb tailroom(struct sk buff *skb); 


返回 可 以 在 缓存 中 放置 数据 的 可 用 空间 数量 ， 如 果 驱 动 放 了 多 于 它 能 持 有 的 数据 到 
缓存 中 ， 系 统 傻 掉 ， 尽 管 你 可 能 反对 说 一 个 printk 会 足够 来 标识 出 这 个 错误 ， 内 
存 破 坏 对 系统 是 非常 有 害 的 以 全 于 开发 者 决定 采取 确定 的 动作 ， 实 际 中 ， 你 不 该 需 
要 检查 可 用 空间 ， 如 果 缓 存 被 正确 地 分 配 了 .因为 驱动 常常 在 分 配 缓存 前 获知 报 文 
的 大 小 ， 只 有 一 个 严重 坏 掉 的 驱动 会 在 缓存 中 安放 太 多 的 数据 ， 这 样 出 乱 子 就 可 当 


作 一 个 应 得 的 惩罚 . 
























































int skb headroom(struct sk buff *skb); 








返回 data 前 面 的 可 用 空间 数量 ， 就 是 ， 可 以 “push” 给 缓存 多 少 字 节 ， 
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void skb reserve(struct sk buff *skb, int len); 





递增 data 和 tail. 这 个 函数 可 用 来 在 填充 数据 前 保留 空间 ， 大 部 分 以 太 网 接口 
保留 2 个 字 节 在 报 文 的 前 面 ; 因此 ，IP 头 对 齐 到 16 字 节 ， 在 14 学 节 的 以 太 网 
头 后 面 ，snull 也 这 样 做， 尽管 没有 在 ” 报 文 接收 “一 节 中 展现 这 个 指令 以 避免 在 那 
时 引入 过 多 概念 . 














unsigned char *skb pull(struct sk buff *skb, int len); 














MIRAR ARA MAINA EC BR, BENEGA TEL. 
它 递 碱 skb->len 和 递增 skb->data; 这 是 硬件 头 如 何 从 进入 报 文 开始 被 剥离 . 





int skb is nonlinear (struct sk buff *skb); 

返回 一 个 真 值 ， 如 果 这 个 skb 分 离 为 多 个 片 为 发 散 /汇聚 I/O. 
int skb headlen(struct sk buff *skb); 

返回 skb 的 第 一 个 片 的 长 度 ( 由 skb->data 指 着 ). 


void *kmap skb frag(skb frag t *frag); 
void kunmap skb frag(void *vaddr); 


如 果 你 必须 从 内 核 中 的 一 个 非 线 性 skb 直接 存 取 片 ， 这 些 函数 为 你 映射 以 及 去 映 
射 它们 ， 使 用 一 个 原子 性 kmap， 因 此 你 不 能 一 次 映射 多 于 一 个 片 . 




















内 核定 义 了 几 个 其 他 的 作用 于 socket 缓存 的 函数 ， 但 是 它们 是 打算 用 于 高 层 网 络 代码 ， 
驱动 不 需要 它们 . 


17.11. MAC 地 址 解析 


以 太 网 通讯 的 一 个 有 趣 的 方面 是 如 何 将 MAC 地 址 ( 接口 的 唯一 硬件 ID ) 和 IP 编号 结合 
起 来 . 大 部 分 协议 有 类 似 的 问题 ， 但 我 们 这 里 集中 于 类 以 太 网 的 情况 ， 我 们 试图 提供 这 个 
问题 的 完整 描述 ， 因 此 我 们 展示 三 个 情形 : ARP， 无 ARP 的 以 太 网 头 部 ( 例如 plip)， 以 
及 非 以 太 网 头 部 . 


17. 11. 1. 以 太 网 使 用 ARP 


处 理 地 址 解析 的 通常 方法 是 使 用 Address Resolution Protocol (ARP). 幸运 的 是 ，ARP 
由 内 核 来 管理 ， 并 且 一 个 以 太 网 接口 不 需要 做 特别 的 事情 来 支持 ARP. RÆ dev->addr 
和 dev->addr_len 在 open 时 正确 的 赋值 了 ， 驱 动 就 不 需要 担心 解决 IP 编号 对 应 于 
MAC 地 址 ; ether setup 安排 正确 的 设备 方法 给 dev-^hard header 和 

dev rebuild header. 














































































































尽管 通常 内 核 处 理 地 址 解析 的 细节 (并且 绥 存 结果 )， 它 需要 接口 驱动 来 帮助 建立 报 文 ， 毕 
竟 ， 张 动 知 道 物理 层 头 部 细节 ， 然 而 网 络 代码 的 作者 已 经 试图 隔离 内 核 其 他 部 分 .为 此 ， 
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内 核 调 用 驱动 的 hard_header 方法 使 用 ARP 查询 的 结果 来 布置 报 文 .正常 地 ， 以 太 网 驱 
动 编写 者 不 需要 知道 这 个 过 程 一 公共 的 以 太 网 代码 负责 了 所 有 事情 . 




















17. 11. 2. 不 考虑 ARP 





简单 的 点 对 点 网 络 接口 ， 例 如 plip， 可 能 从 使 用 以 太 网 头 部 中 受益 ， 而 避免 来 回 发 送 

ARP 报 文 的 开销 .snull 中 的 例子 代码 也 属于 这 一 类 的 网 络 设备 ，snull 不 能 使 用 ARP 
因为 驱动 改变 发 送 报 文中 的 IP 地 址 ，ARP 报 文 也 交换 IP 地址， 尽管 我 们 可 能 轻易 实现 
了 一 个 简单 ARP 应 答 发 生 器 ， 更 多 的 是 演示 性 的 来 展示 如 何 直接 处 理 网 络 层 头 部 . 





























如 果 你 的 设备 想 使 用 通常 的 硬件 头 而 不 运行 ARP， 你 需要 重 写 缺 省 的 dev->hard_header 
方法 .这 是 snull 的 实现 ， 作 为 一 个 非常 短 的 函数 : 








int snull header (struct sk buff *skb, struct net device **dev, 
unsigned short type, void *daddr, void *saddr, 
unsigned int len) 


struct ethhdr *eth = (struct ethhdr *)skb push(skb, ETH HLEN); 
eth-^h proto = htons(type); 

memcpy (eth->h source, saddr ? saddr : dev-^dev addr, dev-^addr len); 
memcpy (eth->h dest,  daddr ? daddr : dev->dev_ addr, dev-^addr len); 
eth->h dest[ETH ALEN-1] = 0x01; /* dest is us xor 1 */ 

return (dev-^hard header len); 


} 


这 个 函数 仅仅 用 内 核 提供 的 信息 并 把 它 格式 成 标准 以 太 网 头 ， 它 也 翻转 目的 以 太 网 地 址 的 
1 位 ， 理 由 下 面 叙 述 . 














当 接 口 收 到 一 个 报 文 ，eth_type_trans 以 几 种 方法 来 使 用 硬件 头 部 ， 我 们 已 经 在 
snull rx 看 到 这 个 调用 . 


skb->protocol = eth type trans(skb, dev); 


这 个 函数 抽取 协议 标识 ( ETH. P_IP， 在 这 个 情况 下 ) 从 以 太 网 头 ; 它 也 赋值 skb- 

>mac. raw, AIRIX data (使 用 skb pull) 去 掉 硬 件 头 部 ， 并 且 设 置 skb->pkt_type， 最 
后 一 项 在 skb 分 配 是 缺 省 为 PACKET HOST (指示 报 文 是 发 向 这 个 主机 的 )， 

eth type trans 改变 它 来 反映 以 太 网 目的 地 址 : 如 果 这 个 地 址 不 匹配 接收 它 的 接口 地 址 ， 
pkt type 成 员 被 设 为 PACKET OTHERHOST. 结果 ， 除 非 接口 处 于 混杂 模式 或 者 内 核 打 开 了 
报 文 转发 ，netif rx 丢弃 任何 类 型 为 PACKET OTHERHOST 的 报 文 ， 因 为 这 样 ， 

snull header 小 心地 使 目的 硬件 地 址 匹配 接收 接口 . 





























如 果 你 的 接口 是 点 对 点 连接 ， 你 不 会 想 收 到 不 希望 的 多 播报 文 ， 为 避免 这 个 问题 ， 记 住 ， 
第 一 个 字 节 的 最 低位 (LSB) 为 0 的 目的 地 址 是 方向 一 个 单个 主机 ( 即 ， 要 么 PACKET. HOST, 
要 么 PACKET OTHERHOST). plip 驱动 使 用 0xfc 作为 它 的 硬件 地 址 的 第 一 个 字 节 ， 而 
snull 使 用 0x00. 两 个 地 址 都 导致 一 个 工作 中 的 类 似 以 太 网 的 点 对 点 连接 . 


17. 11. 3， 非 以 太 网 头 部 
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我 们 刚刚 看 过 硬件 头 部 除 目的 地 址 外 包含 了 一 些 信息 ， 最 重要 的 是 通讯 协议 ， 我 们 现在 描 
述 硬件 头 部 如 何 用 来 封装 相关 的 信息 ， 如 果 你 需要 知道 细节 ， 你 可 从 内 核 源 码 里 抽取 它们 
或 者 从 特定 传送 媒介 的 技术 文档 中 .大 部 分 驱动 编写 者 能 够 忽略 这 个 讨论 只 是 使 用 以 太 网 
实现 . 









































值得 一 提 的 是 不 是 所 有 信息 都 由 每 个 协议 提供 ， 一 个 点 对 点 连接 例如 plip 或 者 snull 
可 能 在 不 失去 通用 性 的 情况 下 避免 传送 这 个 以 太 网 头 部 ，hard_header 设备 方法 ， 由 
snull header 实现 所 展示 的 ， 接 收 自 内 核 的 递交 的 信息 ( 协议 级 别 和 硬件 地 址 )， 它 也 
在 type 参数 中 接收 16 位 协议 编号 ; IP， 例 如 ， 标 识 为 ETH P IP. 了 驱动 应 该 正确 递交 
报 文 数据 和 协议 编号 给 接收 主机 ， 一 个 点 对 点 连接 可 能 它 的 硬件 头 部 的 地 址 ， 只 传送 协议 
编号 ， 因 为 保证 递交 是 独立 于 源 和 目的 地 址 的 . 一 个 只 有 IP 的 连接 甚至 可 能 不 发 送 任何 
硬件 头 部 . 


























当 报 文 在 连接 的 另 一 端 被 收 到 ， 接 收 函数 应 当 正 确 设 置 成 员 skb-^protocol, skb- 
>pkt type， 和 skb->mac. raw. 





skb-^mac.raw 是 一 个 字符 指针 ， 由 在 高 层 的 网 络 代码 (例如 ，net/ipv4/arp. c) 所 实现 的 
地 址 解析 机 制 使 用 ， 它 必须 指向 一 个 匹配 dev->type 的 机 器 地 址 ， 设 备 类 型 的 可 能 的 值 
fr Xlinux/if arp.h» 中 定义 ; 以 太 网 接口 使 用 ARPHRD_ETHER. 例 如， 这 是 

eth type trans 如 何 处 理 收 到 的 报 文 的 以 太 网 头 : 




















skb-^mac.raw = skb-»data; 
skb pull(skb, dev-^hard header len); 








在 最 简单 的 情况 下 ( 一 个 没有 头 的 点 对 点 连接 ), skb-^mac.raw 可 指向 一 个 静态 缓存 ， 
包含 接口 的 硬件 地 址 ，protocol 可 设置 为 ETH P IP, JfH. packet type 可 让 它 是 缺 省 
的 值 PACKET. HOST. 














因为 每 个 人 硬件 类 型 是 独特 的 ， 给 出 超出 已 经 讨论 的 特别 的 设备 是 困难 的 . 内核 中 满 是 例子 ， 
但 是 . 例如 ， 可 查看 AppleTalk 驱动 ( drivers/net/appletalk/cops. c), £L^HJKzjJj ( 例 
如 ，driver/net/irds/smc ircc.c)， 或 者 PPP 驱动 ( drivers/net/ppp generic.c). 


17.12. 定制 ioctl 命令 


我 们 硬件 看 到 给 socket 实现 的 ioctl 系统 调用 ; SIOCSIFADDR 和 SIOCSIFMAP 是 
^socket ioctls” 的 例子 .现在 我 们 看 看 网 络 代 码 如 何 使 用 这 个 系统 调用 的 3 个 参数 . 








当 ioctl 系统 调用 在 一 个 socket 上 被 调用 ， 命 令 号 是 《linux/sockios.h> 中 定义 的 符 
号 中 的 一 个 ， 并 且 sock ioctl 函数 直接 调用 一 个 协议 特定 的 函数 (这 里 “协议 ? 指 的 是 使 
用 的 主要 网 络 协议 ， 例 如 ，IP 或 者 AppleTalk). 











任何 协议 层 不 识别 的 ioctl 命令 传递 给 设备 层 . 这些 设备 有 关 的 ioctl 命令 从 用 户 空 间 
接收 一 个 第 3 个 参数 ， 一 个 struct ifreq*. 这 个 结构 定义 在 Xlinux/if. h>. 
SIOCSIFADDR 和 SIOCSIFMAP 命令 实际 上 在 ifreq 结构 上 工作 . SIOCSIFMAP 的 额外 参数 ， 
定义 为 ifmap， 只 是 ifreq 的 一 个 成 员 . 
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除了 使 用 标准 调用 ， 每 个 接口 可 以 定义 它 自己 的 ioctl 命令 plip EO, Bi, RY 
口 通过 ioctl 修改 它 内 部 的 超时 值 . socket 的 ioctl 实现 认识 16 作为 接口 私有 的 个 
命令 : SIOCDEVPRIVATE 到 SIOCDEVPRIVATE+15. 5" 





当 这 些 命令 中 的 一 个 被 识别 ，dev->do ioctl 在 相关 的 接口 驱动 中 被 调用 .这 个 函数 接收 
与 通用 ioctl 函数 使 用 的 相同 的 struct ifreq * 指针 . 





int (kdo ioctl) (struct net device *dev, struct ifreq *ifr, int cmd); 





ifr 指针 指向 一 个 内 核 空间 地 址 ， 这 个 地 址 持 有 用 户 传递 的 结构 的 一 个 拷贝 .在 
do ioctl 返回 之 后 ， 结 构 被 找 贝 回 用 户 空 间 ; 因此 ， 张 动 可 以 使 用 这 些 私 有 命令 接收 和 
返回 数据 . 























设备 特定 的 命令 可 以 选择 使 用 结构 ifreq 中 的 成 员 ， 但 是 它们 已 经 传达 一 个 标准 意义 ， 
并 且 不 可 能 驱动 使 这 个 结构 适应 自己 的 需要 .成 员 ifr data 是 一 个 caddr t 项 ( 一 个 
指针 )， 是 打算 用 做 设备 特定 的 需要 . 驱动 和 用 来 调用 它 的 ioctl 命令 的 程序 应 当 一 致 
地 使 用 ifr data. 例如 ，ppp-stats 使 用 设备 特定 的 命令 来 从 ppp 接口 驱动 获取 信息 . 


















































这 里 不 值得 展示 一 个 do ioctl 的 实现 ， 但 是 有 了 本 章 的 信息 和 内 核 例子 ， 你 应 当 能 够 在 
你 需要 时 编写 一 个 ， 注 意 ， 但 是 ，plip 实现 使 用 ifr data 不 正确 ， 不 应 当 作 为 一 个 
ioctl 实现 的 例子 . 


























SU 注意 ， 根 据 <linux/sockios. h>，SIOCDEVPRIVATE 命令 是 被 不 赞成 的 ， 应 当 使 用 什么 
来 代替 它们 是 不 明确 的 ， 但 是 ， 并 且 不 少 在 目录 树 中 的 张 动 还 使 用 它们 . 


17. 13， 统 计 信 息 


驱动 需要 的 最 后 一 个 方法 是 get_stats， 这 个 方法 返回 一 个 指向 给 设备 的 统计 的 指针 ， 它 
的 实现 非常 简单 ; 展示 过 的 这 个 即便 在 几 个 接口 由 同一 个 驱动 管理 时 都 好 用 ， 因 为 统计 量 
驻 留 于 设备 数据 结构 内 部 






























































struct net device stats *snull stats(struct net device *dev) 
{ 

struct snull priv *priv = netdev_priv (dev); 

return &priv-?stats; 


} 














需要 返回 有 意义 统计 的 真正 工作 是 分 布 在 整个 驱动 中 的 ， 有 各 种 成 员 量 被 更 新 ， 下 列 列表 
展示 了 最 有 趣 的 结构 net_device stats 中 的 成 员 : 











unsigned long rx packets; 
unsigned long tx packets; 


接口 成 功 传送 的 进入 和 出 去 报 文 的 总 和 . 


unsigned long rx bytes; 
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unsigned long tx bytes; 


接口 接收 和 发 送 的 字 节 数 . 


unsigned long rx errors; 
unsigned long tx errors; 





接收 和 发 送 的 错误 数 . 报 文 发 送 可 能 出 错 的 事情 是 没有 结束 的 ，net_device stats 
结构 包括 6 个 计数 器 给 特定 的 接收 错误 以 及 有 “5 个 给 发 送 错误 .完整 列表 看 
<<linux/netdevice. h>. 如 果 可 能 ， 你 的 驱动 调用 维护 详细 的 错误 统计 ， 因 为 它们 
是 对 系统 管理 员 试 图 追踪 问题 的 最 大 帮助 . 




















unsigned long rx dropped; 
unsigned long tx dropped; 





在 接收 和 发 送 中 丢失 的 报 文 数目 ， 当 没有 可 用 内 存 给 报 文 数据 时 丢弃 报 文 . 
tx dropped 极 少 使 用 . 





unsigned long collisions; 
由 于 介质 拥塞 引起 的 冲突 数目 . 
unsigned long multicast; 


收 到 的 多 播报 文 数目 . 











值得 重复 一 下 ，get_stats 方法 可 以 在 任何 时 候 调 用 一 即便 在 接口 关闭 时 一 因此 只 要 
net device 结构 存在 驱动 必须 保持 统计 信息 . 


17.14. Z 


一 个 多 播报 文 是 一 个 会 被 多 个 主机 接收 的 网 络 报 文 ， 但 不 是 所 有 主机 . 这 个 功能 通过 给 一 
组 主机 分 配 特殊 的 硬件 地 址 来 获得 .发 向 一 个 特殊 地 址 的 报 文 应 当 被 那个 组 当中 的 所 有 主 
机 接收 .在 以 太 网 的 情况 下 ， 一 个 多 播 地 址 在 目的 地 址 的 第 一 个 字 节 的 最 低位 为 1， 而 每 
个 设备 板 在 它 自 己 的 硬件 地 址 的 这 一 位 上 为 0. 























处 理 主机 组 和 硬件 地 址 的 技巧 由 应 用 程序 和 内 核 处 理 ， 接 口 驱 动 不 必 处 理 这 个 问题 . 











多 播报 文 的 传送 是 一 个 简单 问题 ， 因 为 它们 看 起 来 就 如 同 其 他 的 报 文 ， 接 口 发 送 它们 通过 
通讯 媒介 ， 不 查看 目的 地 址 ， 内 核 必须 要 安排 一 个 正确 的 硬件 目的 地 址 ; hard header i 
备 方法 ， 如 果 定义 了 ， 不 必 查 看 它 安排 的 数据 . 





























内 核 来 跟踪 在 任何 给 定时 间 对 哪些 多 揪 地 址 感 兴 趣 . 这 个 列表 可 能 经 常 改变 ， 因 为 它 是 在 
任何 给 定时 间 和 按照 用 户 意愿 运行 的 应 用 程序 的 功能 .驱动 的 工作 是 接收 感 兴 趣 的 多 播 地 
址 列表 并 递交 给 内 核 任何 发 向 这 些 地 址 的 报 文 ， 驱动 如 何 实现 多 播 列表 是 依赖 于 底层 硬件 
是 如 何 工作 的 ， 典型 地 ， 在 多 播 的 角度 上 ， 硬 件 属于 3 类 中 的 1 种 : 
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。 不 能 处 理 多 播 的 接口 ， 这样 的 接口 要 么 接收 特别 地 发 向 它们 的 硬件 地 址 (加 上 广播 
报 文 ) 的 报 文 ， 要 么 接收 每 一 个 报 文 . 它们 只 能 通过 接收 每 一 个 报 文 来 接收 多 播报 
文 ， 因 此 ， 洪 在 地 压 其 操作 系统 ， 使 用 大 量 的 ”不感 兴 趣 “ 报 文 ， 你 不 经 常 认为 这 样 
的 接口 是 有 多 播 能 力 的 ， 驱 动 不 会 在 dev->flags 设置 IFF MULTICAST. 





























点 对 点 接口 是 特殊 情况 ， 因 为 它们 一 直接 收 每 个 报 文 ， 不 进行 任何 便 件 过 滤 . 





。 能 够 区 别 多 播报 文 和 其 他 报 文 ( 主 机 到 主机 ， 或 者 广播 )， 这 些 接口 能 够 被 命令 来 接 
收 每 个 多 播报 文 ， 让 软件 决定 地 址 是 否 是 主机 感 兴趣 的 . 这 种 情况 下 的 开销 是 可 接 
受 的， 因为 在 一 个 典型 网 络 上 的 多 播报 文 的 数目 是 少 的 . 

。 可 以 进行 硬件 检测 多 播 地 址 的 接口 ， 可 以 传递 一 个 多 播 地 址 的 列表 给 这 些 接口 ， 这 
些 地 址 的 报 文 接收 ， 并 忽略 其 他 多 播 地 址 的 报 文 .对 内 核 这 是 优化 的 情况 ， 因 为 它 
不 浪费 处 理 器 时 间 来 丢弃 接口 收 到 的 “不 感 兴趣 ”的 报 文 . 









































内 核 尽 力 利 用 高 级 接口 的 能 力 ， 通 过 支持 第 3 种 设备 类 型 ， 它 是 最 通用 的 . 因此， 内核 
通知 驱动 ， 在 任何 有 效 多 播 地 址 列表 发 生 改 变 时 ， 并 且 它 传递 新 的 列表 给 驱动 ， 因 此 它 能 
够 根据 新 的 信息 来 更 新 便 件 过 滤器 . 

17. 14. 1， 多 播 的 内 核 支持 


对 多 播报 文 的 支持 有 儿 项 组 成 :一 个 设备 方法 ， 一 个 数据 结构 ， 以 及 设备 标识 : 





























void (xdev->set multicast list) (struct net device *dev); 








设备 方法 ， 在 与 设备 相关 的 机 器 地 址 改变 时 调用 ， 它 也 在 dev flags 被 修改 时 调 
用 ， 因 为 一 些 标 志 ( 例 如 ，IFF_PROMISC) 可 能 也 要 求 你 重新 编程 硬件 过 滤器 ， 这 个 
方法 接收 一 个 struct net device 指针 作为 一 个 参数 ， 并 返回 void， 一 个 对 实现 
这 个 方法 不 感 兴趣 的 驱动 可 以 听任 它 为 NULL. 











struct dev mc list *dev-?mc list; 





所 有 设备 相关 的 多 播 地 址 的 列表 ， 这 个 结构 的 实际 定义 在 本 节 的 末尾 介绍 . 





int dev-?mc count; 














链表 里 的 项 数 . 这 个 信息 有 些 重复 ， 但 是 用 0 来 检查 me count 是 检查 这 个 列表 
的 有 用 的 方法 . 








IFF MULTICAST 











除非 驱动 在 dev->flags 中 设置 这 个 标志 ， 接 口 不 会 被 要 求 来 处 理 多 播报 文 ， 然 而 ， 
内 核 调 用 驱动 的 set multicast list 方法 ， 当 dev->flags 改变 时 ， 因 为 多 播 列 
表 可 能 在 接口 未 激活 时 改变 了 . 








IFF ALLMULTI 
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在 devo flags 中 设置 的 标志 ， 网 络 软件 来 告知 驱动 从 网 络 上 接收 所 有 多 播报 文 . 
这 发 生 在 当 多 播 路 由 激活 时 .如 果 标 志 设 置 了 ，dev->ma_list 不 该 用 来 过 滤 多 播 
报 文 . 





IFF_PROMISC 
在 dev->flags 中 设置 的 标志 ， 当 接口 在 混杂 模式 下 ， 接 口 应 当 接收 每 个 报 文 ， 不 


管 dev->ma list. 


























驱动 开发 者 需要 的 最 后 一 点 信息 是 struct dev mc list 的 定义 ， 在 


Xlinux/netdevice. h^: 





struct dev mc list { struct dev mc list *next; /* Next address in list */ 
. u8 dmi addr[MAX ADDR LEN]; /* Hardware address */ 
unsigned char dmi addrlen; /* Address length */ 
int dmi users; /* Number of users */ 
int dmi gusers; /* Number of groups */ 


i4 


因为 多 播 和 硬件 地 址 是 独立 于 真正 的 报 文 发 送 ， 这 个 结构 在 网 络 实现 中 是 可 移植 的 ， 每 个 
地 址 由 一 个 字符 串 和 一 个 长 度 标识 ， 就 像 dev->dev_addr. 


17. 14. 2. 典型 实现 


描述 set multicast list 的 设计 的 最 好 方法 是 给 你 看 一 些 伪 码 . 

















下 面 的 函数 是 一 个 典型 函数 实现 在 一 个 全 特性 (ff) 驱动 中 ， 这 个 驱动 是 全 模式 的 ， 它 控制 
的 接口 有 一 个 复杂 的 硬件 报 文 过 滤器 ， 它 能 够 持 有 一 个 主机 要 接收 的 多 播 地 址 表 . 表 的 最 
大 尺寸 是 FF TABLE SIZE. 





所 有 以 ff 前 级 的 函数 是 给 特定 便 件 操作 的 占 位 者 : 


void ff set multicast list(struct net device *dev) { struct dev mc list *mcptr; 
if (dev->flags & IFF PROMISC) ( 
ff get all packets; 
return; 


} 


/* If there's more addresses than we handle, get all multicast packets and sort them 
out in software. */ 
if (dev-^flags & IFF ALLMULTI || dev->mc count > FF TABLE SIZE) ( 


ff get all multicast packets); 
return; 


} 


/* No multicast? Just get our own stuff */ 
if (dev-^me count == 0) { 
ff get only own packets); 





return; 
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/* Store all of the multicast addresses in the hardware filter */ 
ff clear mc list; 
for (mc ptr = dev->mc list; mc ptr; mc ptr = mc ptr->next) 
ff store mc address(mc ptr-^dmi addr); 
ff get packets in multicast list; 


} 


这 个 实现 可 以 简化 ， 如 果 接 口 不 能 为 进入 报 文 存储 多 播 表 在 人 硬件 过 滤器 中 .这 种 情况 下 ， 
FF TABLE SIZE 减 为 0， 并 且 代 码 的 最 后 4 行 不 需要 了 . 

















如 同 前 面 提 过 的 ， 不 能 处 理 多 播报 文 的 接口 不 需要 实现 set multicast list 方法 来 获取 
dev->flags 改变 的 通知 ， 这 个 办 法 可 能 被 称 为 一 个 “非特 性 的 “Cnf) 实现 .实现 非常 简单 ， 
如 下 面 代码 所 示 : 











void nf set multicast list(struct net device *dev) 
{ 
if (dev->flags & IFF PROMISC) 
nf get all packets); 
else 
nf get only own packets (); 





} 








实现 IFF PROMISC 是 非常 重要 的 ， 因 为 不 这 样 用 户 就 不 能 运行 tcpdump 或 任何 其 他 网 络 
分 析 器 . 如 果 接 口 运行 一 个 点 对 点 连接 ， 男 一 方面 ， 根 本 没有 必要 实现 
set multicast list， 因 为 用 户 接 收 每 个 报 文 . 


17.15. JU Em T 


本 节 涵 盖 了 儿 个 其 他 主题 ， 对 网 络 驱 动作 者 感 兴趣 的 .在 每 种 情况 ， 我 们 试 着 简单 指点 你 
正确 的 方向 ， 获 取 了 一 个 主题 的 完整 描绘 可 能 还 需要 花费 一 些 时 间 深 入 内 核 源码 . 


17. 15. 1， 独 立 于 媒介 的 接口 支持 
媒介 独立 接口 (或 MID 是 一 个 IEEE 802.3 标准 ， 描 述 以 太 网 收发 器 如 何 与 网 络 控制 器 


接口 ; 很 多 市 场 上 的 产品 遵守 这 个 接口 ， 如 果 你 在 编写 一 个 驱动 为 一 个 MII 兼容 控制 器 ， 
内 核 输出 了 一 个 通用 MI 支持 层 ， 可 能 会 使 你 易 做 一 些 . 



























































为 使 用 通用 MI 层 ， 你 应 当 包 含 《linux/mii.h>， 你 需要 填充 一 个 mii if info 结构 使 
用 收发 器 的 物理 ID 信息 ， 如 是 否 全 双 工 有 效 ， 还 要 求 mii if info 结构 的 2 个 方法 : 

















int (kmdio read) (struct net device *dev, int phy id, int location); 
void (kmdio write) (struct net device *dev, int phy id, int location, int val); 








如 你 可 能 预料 的 ， 这 些 方 法 应 当 实现 与 你 的 特殊 MII 接口 的 通讯 . 











通用 的 MI 代码 提供 一 套 函 数 ， 来 查询 和 改变 收发 器 的 操作 模式 ; 许多 设计 成 与 
ethtool 工具 一 起 工作 ( 下 一 节 描 述 ). 在 《<linux/mii.h> 和 drivers/net/mii.c 中 查 
看 细节 . 
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17.15.2. ethtool 支持 


ethtool 是 一 个 实用 工具 ， 设 计 来 给 系统 管理 员 以 大 量 的 控制 网 络 接口 的 操作 ， 用 
ethtoo1， 可 能 来 控制 各 种 接口 参数 ， 包 括 速度 ， 介 质 类 型 ， 双 工 模式 ，DMA 环 设置 ， 硬 
件 校 验 和 ，LAN 唤醒 操作 ， 等 等 ， 但 是 只 有 当 ethtool 被 驱动 支持 . ethtool 可 以 从 
http://sf.net/projects/gkernel/. 下 载 . 

















对 ethtool 支持 的 相关 声明 可 在 《1linux/ethtool.h> 中 找到 ， 它 的 核心 是 一 个 
ethtool ops 类 型 的 结构 ， 里 面包 含 一 个 全 部 24 个 不 同方 法 来 文 持 ethtool. 大 部 分 这 
些 方法 是 相对 直接 地 ; 细节 看 《linux/ethtoo1.h>， 如 果 你 的 驱动 使 用 MII 层 ， 你 能 使 
用 mii ethtool gset 和 mii ethtool sset 来 实现 get settings 和 set settings Ù 
法 ， 分 别 地 . 























对 于 和 你 的 设备 一 起 工作 的 ethtool， 你 必须 放置 一 个 指向 你 的 ethtool ops 结构 的 指 
针 在 net devcie 结构 中 ， 宏 定义 SET ETHTOOL OPS( Æ <linux/netdevice. h> 中 定义 ) 
应 当 用 作 这 个 目的 ， 注意 你 的 ethtool 方法 可 能 会 在 接口 关闭 时 被 调用 . 








17.15.3. netpoll 








“netpoll1” 是 相对 述 的 增加 到 网 络 协议 栈 中 ; 它 的 目的 是 使 内 核能 够 发 送 和 接收 报 文 ， 在 
完整 的 网 络 和 I/0 子 系统 不 可 用 的 情况 下 .， 它 用 来 给 如 远程 网 络 控制 台 和 远程 内 核 调试 等 
特色 使 用 的 ， 无 论 如 何 ， 你 的 张 动 不 必 支持 netpol1， 但 是 它 可 能 使 你 的 驱动 在 某 些 情况 
下 更 有 用 .在 大 部 分 情况 下 支持 netpoll 也 相对 容易 . 














实现 netpoll 的 驱动 应 当 实 现 poll controller 方法 . 它 的 工作 是 跟 上 控制 器 上 可 能 发 
生 的 任何 东西 ， 在 缺乏 设备 中 断 时 ， 几 乎 所 有 的 poll controller 方法 采用 下 面 形式 : 











void my poll controller(struct net device *dev) 
{ 
disable device _ interrupts (dev) ; 
call_interrupt_handler (dev->irq, dev, NULL); 
reenable device interrupts (dev) ; 


} 





poll controller 方法 ， 实 际 上 ， 是 简单 模拟 自给 定 设备 的 中 断 . 


17.16. 快速 参考 


本 节 提 供 了 本 章 中 介绍 的 概念 的 参考 .也 解释 了 每 个 驱动 需要 包含 的 头 文 件 的 角色 . 在 
net device 和 sk buff 结构 中 成 员 的 列表 ， 但 是 ， 这 里 没有 重复 . 





























Hinclude <linux/netdevice. h> 


定义 struct net device 和 struct net device stats 的 头 文 件 ， 包 含 了 几 个 其 
他 网 络 驱 动 需要 的 头 文件 . 





struct net device *alloc netdev(int sizeof priv, char *name, void (*setup) (struct 
net device *); 
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struct net device *alloc etherdev(int sizeof priv); 
void free netdev (struct net device *dev); 





分 配 和 释放 net device 结构 的 函数 


int register netdev(struct net device *dev); 
void unregister netdev(struct net device *dev); 


注册 和 注销 一 个 网 络 设备 . 


void *netdev priv(struct net device *dev); 





获取 网 络 设备 结构 的 驱动 私有 区 域 的 指针 的 函数 . 


struct net device stats; 





持 有 设备 统计 的 结构 . 


netif start queue(struct net device *dev); 
netif stop queue (struct net device *dev); 
netif wake queue(struct net device *dev); 


控制 传送 给 驱动 来 发 送 的 报 文 的 函数 .没有 报 文 被 传送 ， 直 到 netif start queue 
被 调用 ，netif stop queue 挂 起 发 送 ，netif wake queue 重启 队列 并 刺探 网 络 层 
重启 发 送 报 文 . 





skb shinfo(struct sk buff *skb); 
宏 定义 ， 提 供 对 报 文 缓存 的 “shared info” 部 分 的 存 取 . 


void netif rx(struct sk buff *skb); 





调用 来 通知 内 核 一 个 报 文 已 经 收 到 并 且 封 装 到 一 个 socket 缓存 中 的 函数 . 
void netif rx schedule (dev); 


来 告诉 内 核 报 文 可 用 并 且 应 当局 动 查询 接口 ; 它 只 是 被 NAPI 兼容 的 驱动 使 用 . 








int netif receive skb(struct sk buff *skb); 
void netif rx complete(struct net device *dev); 


应 当 只 被 NAPI 兼容 的 驱动 使 用 ，netif receive skb 是 对 于 netif rx 的 NAPI 
对 等 函数 ; 它 递交 一 个 报 文 给 内 核 . 当 一 个 NAPI 兼容 的 驱动 已 耗 尽 接 收报 文 的 供 
Y, ENKER H, AHHH netif rx complete 来 停止 查询 . 














Hinclude <linux/if. h> 











由 netdevice.h 包含 ， 这 个 文件 声明 接口 标志 ( IFF. 宏 定 义 ) 和 struct ifmap, 
它 在 网 络 驱 动 的 ioctl 实现 中 有 重要 地 位 . 
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void netif carrier off(struct net device *dev); 


void netif carrier on(struct net device *dev); 
int netif carrier ok(struct net device *dev); 


前 2 个 函数 可 用 来 告知 内 核 是 否 接 口上 有 和 载波 信号 . netif_carrier_ok 测试 载波 
状态 ， 如 同 在 设备 结构 中 反映 的 . 





#include <linux/if ether. h> 
ETH ALEN 

ETH P IP 

struct ethhdr; 





由 netdevice.h B, if ether.h 定义 所 有 的 BTH 宏 定 义 ， 用 来 代表 字 节 长 度 
C 例如 地 址 长 度 ) 以 及 网 络 协议 (例如 IP). EEEX ethhdr 结构 . 


Hinclude <linux/skbuff. h> 





struct sk buff 和 相关 结构 的 定义 ， 以 及 几 个 操作 缓存 的 内 联 函 数 ， 这 个 头 文件 


由 netdevice.h 包含 . 





struct sk buff *alloc skb(unsigned int len, int priority); 
struct sk buff *dev alloc skb(unsigned int len); 


void kfree skb(struct sk buff *skb); 


void dev kfree skb(struct sk buff *skb); 
void dev kfree skb irq(struct sk buff *skb); 
void dev kfree skb any(struct sk buff *skb); 

















处 理 socket 缓存 的 分 配 和 释放 的 函数 ， 通 常 驱动 应 当 使 用 dev 变 体 ， 其 意图 就 





是 此 目的 . 


unsigned char *skb put (struct sk buff *skb, int len); 
unsigned char * skb put(struct sk buff *skb, int len); 
unsigned char *skb push(struct sk buff *skb, int len); 
unsigned char * skb push(struct sk buff *skb, int len); 


添加 数据 到 一 个 skb 的 函数 ; skb put 在 skb 的 尾部 放置 数据 ， 而 skb push 放 











在 开始 ， 正 常 版 本 进行 检查 以 有 


int skb headroom(struct sk buff *skb); 
int skb tailroom(struct sk buff *skb); 





保有 足够 的 空间 ; 双 下 划 线 版 本 不 进行 检查 . 


void skb reserve(struct sk buff *skb, int len); 





进行 skb 中 的 空间 管理 的 函数 . 











F 


skb headroom 和 skb tailroom 说 明 在 开始 和 结 





屁 分 别 有 多 少 空间 可 用 . skb reserve 可 用 来 保留 空间 ， 在 一 个 必须 为 空 的 skb 


开始 . 


unsigned char *skb pull(struct sk buff *skb, int len); 


skb pull “去除” 数据 从 一 个 skb， 通 过 调整 内 部 指针 . 
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int skb is nonlinear(struct sk buff *skb); 





如 果 这 个 skb 是 为 发 散 /汇聚 1/0 分 隔 为 几 个 片 ， 函 数 返 回 一 个 真 值 . 
int skb headlen(struct sk buff *skb); 


返回 skb 的 第 一 个 片 的 长 度 ， 由 skb->data 指向 . 





void *kmap skb frag(skb frag t *frag); 
void kunmap skb frag(void *vaddr); 


提供 对 非 线性 skb 中 的 片 直 接 存 取 的 函数 . 


&include <linux/etherdevice. h> 
void ether setup(struct net device *dev); 





为 以 太 网 驱动 设置 大 部 分 方法 为 通用 实现 的 函数 . CERE dev->flags 和 安排 下 
一 个 可 用 的 ethx 给 dev->name， 如 果 名 子 的 第 一 个 字符 是 一 个 空格 或 者 NULL F 
符 . 








unsigned short eth type trans(struct sk buff *skb, struct net device *dev); 


当 一 个 以 太 网 接口 收 到 一 个 报 文 ， 这 个 函数 被 调用 来 设置 skb-^pkt type. 返回 值 
是 一 个 协议 号 ， 通 常 存 储 于 skb->protocol. 





Hinclude <linux/sockios. h> 
SIOCDEVPRIVATE 





前 16 个 ioctl 命令 ， 每 个 驱动 可 为 它们 自己 的 私有 用 途 而 实现 .所 有 的 网 络 
ioctl 命令 都 在 sockios.h 中 定义 . 





#include <linux/mii. h> 
struct mii_if_info; 





声明 和 一 个 结构 ， 支 持 实现 MII 标准 的 设备 的 驱动 . 


#include Xlinux/ethtool. h> 
struct ethtool_ops; 








声明 和 结构 ， 使 得 设备 与 ethtool 工具 一 起 工作 . 
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第 18 章 TTY 驱动 


一 个 tty 设备 得 名 于 电 传 打字 机 的 很 老 的 简称 ， 并 且 起 初 只 和 连接 到 一 台 UNIX 机 器 的 物理 或 者 虚拟 
终端 有 关联 ， 长 时 间 以 来 ， 这 个 名 子 还 逐渐 表示 任何 串口 类 型 的 设备 ， 因 为 终端 连接 也 能 够 在 这 样 的 一 
个 连接 上 建立 ， 一 些 物理 tty 设备 的 例子 是 串口 ，USB- 串 口 转换 器 ， 以 及 某 些 类 型 的 需要 特殊 处 理 来 
正确 工作 的 调制 解 调 器 (例如 传统 的 Win-Modem 类 型 设备 )，tty 虚拟 设备 支持 虚拟 控制 台 以 用 来 登录 
到 一 台 计 算 机 ， 或 者 从 键盘 ， 或 者 从 网 络 连 接 ， 或 者 通过 一 个 xterm 会 话 . 



















































































Linux tty 驱动 的 核心 正好 位 于 标准 字符 驱动 级 别 之 下 ， 并 且 提 供 了 一 些 特性 集中 在 为 使 用 终端 类 型 设 
备 提供 一 个 接口 。 这 个 核心 负责 控制 跨越 一 个 tty 设备 的 数据 流 和 数据 格式 ， 这 允许 tty 驱动 以 一 种 
一 致 的 方式 集中 于 处 理 到 硬件 和 出 自 硬件 的 数据 ， 而 不 必 担 心 如 何 控制 对 用 户 空间 的 接口 ， 为 控制 数据 
流 ， 有 几 个 不 同 的 线路 规程 可 以 虚拟 地 “插入 “任何 一 个 tty 设备 ， 这 由 不 同 的 tty 线路 规程 驱动 来 完 
成 . 
























































如 同 图 tty 核心 概览 所 示 ，tty 核心 从 一 个 用 户 获 取 将 要 发 送 给 一 个 tty 设备 的 数据 ， 它 接着 传递 

它 到 一 个 tty 线路 规程 驱动 ， 接 着 传递 它 到 一 个 tty 驱动 ， 这 个 tty 驱动 转换 数据 为 可 以 发 送 给 便 
件 的 格式 ， 从 tty 硬件 收 到 的 数据 向 上 回流 通过 tty 驱动 ， 进 入 tty 线路 规程 驱动 ， 再 进入 tty 核 
心 ， 在 这 里 它 被 一 个 用 户 获取 ， 有 时 tty 驱动 直接 和 tty 核心 通讯 ， 并 且 tty 核心 直接 发 送 数据 到 

tty 驱动 ， 但 是 常常 tty 线路 规程 有 机 会 修改 在 2 者 之 间 发 送 的 数据 . 


图 18.1. tty 核心 概览 






















































































user 


kernel 





hardware 








tty 驱动 从 未 看 见 tty 线路 规程 ， 这 个 驱动 不 能 直接 和 线路 规程 通讯 ， 它 甚至 也 不 知道 
它 存 在 .驱动 的 工作 是 以 硬件 能 够 理解 的 方式 格式 化 发 送 给 它 的 数据 ， 并 且 从 硬件 接收 数 
jm. tty 线路 规程 的 工作 是 以 特殊 的 方式 格式 化 从 一 个 用 户 或 者 硬件 收 到 的 数据 ， 这 种 格 
式 化 常常 采用 一 个 协议 转换 的 形式 ， 例 如 PPP 和 Bluetooth. 














有 3 种 不 同类 型 tty 驱动 : RAE, PO, M pty. PARM pty 驱动 硬件 已 经 被 编 
写 以 及 可 能 是 唯一 需要 的 tty 驱动 的 类 型 ， 这 使 得 任何 使 用 tty 核心 来 与 用 户 和 系统 交 
互 的 新 驱动 作为 串口 驱动 . 
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为 知道 什么 类 型 的 tty 驱动 当前 被 加 载 到 内 核 以 及 什么 tty 设备 当前 存在 ， 查 看 
/proc/tty/drivers 文件 ， 这 个 文件 包括 一 个 当前 存在 的 不 同 tty. KRIK, ERK 
动 的 名 子 ， 缺 省 的 节点 名 子 ， 张 动 的 主编 号 ， 这 个 驱动 使 用 的 次 编号 范围 ， 以 及 tty UK 
动 的 类 型 ， 下 面 是 一 个 这 个 文件 的 例子 : 














/ dev/tty /dev/tty 5 0 system: /dev/tty 
/dev/console /dev/console 5 1 system:console 
/ dev/ptmx / dev/ptmx 5 2 system 

/ dev/vc/0 / dev/vc/0 4 0 system:vtmaster 
usbserial /dev/ttyUSB | 188 0-254 serial 

serial /dev/ttyS 4 64-67 serial 

pty slave / dev/pts 136 0-255 pty:slave 

pty master / dev/ptm 128 0-255 pty:master 

pty slave /dev/ttyp 3 0-255 pty:slave 

pty master / dev/pty 2 0-255 pty:master 
unknown /dev/tty 4 1-63 console 


/proc/tty/driver/ 目录 给 一 些 tty 驱动 包含 了 单独 的 文件 ， 如 果 它 们 实现 这 个 功能 . 
缺 省 的 串口 驱动 创建 一 个 文件 在 这 个 目录 中 来 展示 许多 串口 特定 的 硬件 信息 ， 如 何在 这 个 
目录 建立 一 个 文件 的 信息 后 面 描述 . 























所 有 的 当前 注册 的 以 及 在 内 核 中 出 现 的 tty 设备 有 它们 自己 的 子 目 录 在 /sys/class/tty 
下 面 . 在 那个 子 目 录 下 ， 有 一 个 “dev ”文件 包含 有 分 配给 那个 tty 设备 的 主 次 编号 ， 如 
果 这 个 驱动 告知 内 核 物理 设备 和 关联 到 这 个 tty 设备 的 驱动 的 所 在 ， 它 创建 符号 连接 到 
它们 ， 这 个 树 的 一 个 例子 是 : 








/sys/class/tty/ 
— console 
|— dev 
—— ptmx 
|— dev 
— tty 
|— dev 
— ttyO 
1— dev 


— ttySl 
'— dev 
== Pttys2 
|— dev 
— tty93 
|— dev 


— ttyUSBO 
| dev 
|-- device -> ../../.. /devices/pci0000:00/0000:00:09. 0/usb3/3-1/3-1:1. 0/ttyUSBO 
^— driver -> ../../.. /bus/usb-serial/drivers/keyspan 4 
— ttyUSB1 
|-- dev 
|-- device -> ../.. /.. /devices/pci0000:00/0000: 00:09. 0/usb3/3-1/3-1:1. 0/ttyUSB1 
^— driver -> ../../.. /bus/usb-serial/drivers/keyspan 4 
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— ttyUSB2 
|-- dev 
|-- device -> ../../.. /devices/pci0000:00/0000:00:09. 0/usb3/3-1/3-1:1. 0/ttyUSB2 
^— driver -> ../../.. /bus/usb-serial/drivers/keyspan 4 
^— ttyUSB3 
— dev 
— device -> ../../.. /devices/pci0000:00/0000:00:09. 0/usb3/3-1/3-1:1. 0/ttyUSB3 
^— driver -> ../.. /.. /bus/usb-serial/drivers/keyspan 4 


18.1. 一 个 小 TTY 驱动 


为 解释 tty 核心 如 何 工 作 ， 我 们 创建 一 个 小 tty 驱动 ， 可 以 被 加 载 ， 以 及 写 入 读 出 ， 并 
HEIR. 任何 一 个 tty 驱动 的 主要 数据 结构 是 struct tty_driver， 它 用 来 注册 和 注销 
一 个 tty 驱动 到 tty 内 核 ， 在 内 核 头 文件 《Linux/tty_driver.h> 中 描述 . 























为 创建 一 个 struct tty driver, MÆ alloc tty driver 必须 用 这 个 驱动 作为 参数 而 支 
持 的 tty 设备 号 来 调用 .这 可 使 用 下 面 的 简短 代码 来 完成 : 








/* allocate the tty driver */ 

tiny tty driver = alloc tty driver(TINY TTY MINORS) ; 
if (!tiny tty driver) 

return -ENOMEM; 





在 alloc tty driver 函数 被 成 功 调用 后 ，struct tty driver 应 当 用 基于 tty 驱动 的 
需要 的 正确 信息 被 初始 化 .这 个 结构 包含 很 多 不 同 成 员 ， 但 不 是 为 了 有 一 个 可 工作 的 tty 
驱动 而 全 部 都 必须 被 初始 化 .这 里 有 一 个 例子 展示 如 何 初始 化 这 个 结构 并 且 建 立足 够 的 成 
员 来 创建 一 个 工作 的 tty 驱动 ， 它 使 用 tty set operations 函数 来 帮助 捞 贝 驱动 中 定 
义 的 函数 操作 集合 : 












































static struct tty operations serial ops = ( 
.Open = tiny open, 

.close = tiny close 

.Write = tiny write, 

.write room = tiny write room, 

.set termios - tiny set termios, 


/* initialize the tty driver */ 

tiny tty driver->owner = THIS MODULE; 

tiny tty driver-^driver name = "tiny tty"; 

tiny tty driver-^name = ”ttty”; 

tiny tty driver-^devfs name = ^tts/ttty*d"; 

tiny tty _ driver->major = TINY TTY MAJOR, 

tiny tty driver->type = TTY DRIVER TYPE SERIAL, 

tiny tty driver->subtype = SERIAL TYPE NORMAL, 

tiny tty driver->flags = TTY DRIVER REAL RAW | TTY DRIVER NO DEVFS, 
tiny tty driver->init termios = tty std termios; 

tiny tty _ driver->init termios.c cflag = B9600 | CS8 | CREAD | HUPCL | CLOCAL; 
tty set operations(tiny tty driver, &serial ops); 
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上 面 列 出 的 变量 和 函数 ， 以 及 这 个 结构 如 何 使 用 ， 在 本 章 的 剩 下 部 分 讲解 . 














为 注册 这 个 驱动 到 tty 核心 ，struct tty driver 必须 传递 到 tty register driver RI 
数 : 


/* register the tty driver */ 

retval = tty register driver(tiny tty driver); 

if (retval) 

{ 
printk(KERN ERR ^failed to register tiny tty driver”); 
put tty driver(tiny tty driver); 
return retval; 


} 





当 调 用 tty_register_driver， 内 核 创 建 了 所 有 的 不 同 sysfs tty 文件 为 这 个 tty 驱动 
可 能 有 的 整个 范围 的 次 设备 ， 如果 你 使 用 devfs ( 本 书 不 涉及 ) 并 且 除 非 指定 

TTY DRIVER NO DEVFS 标志 ，devfs 文件 也 被 创建 这 个 标志 可 被 指定 如 果 你 只 想 为 这 个 

实际 在 系统 中 存在 的 设备 调用 tty_register_device， 因 此 用 户 一 直 有 一 个 内 核 中 有 的 最 

新 的 设备 视图 ， 这 就 是 devfs 用 户 期 望 的 . 











在 注册 它 自 己 后 ， 这 个 驱动 通过 tty register device 注册 它 控制 的 设备 ， 这 个 函数 有 
3 个 参数 : 


。 一 个 指针 指向 这 个 设备 所 属 的 struct tty_driver. 

。 设备 的 次 编号 

。 一 个 指针 指向 这 个 tty 设备 所 绑 定 的 struct device. 如 果 这 个 tty 设备 没 绑 定 
到 任何 一 个 struct device， 这 个 参数 可 被 设 为 NULL. 








我 们 的 驱动 一 次 注册 所 有 的 tty 设备 ， 因 为 它们 是 虚拟 的 并 且 没 有 绑 定 到 任何 一 个 物理 
设备 : 





for (i = 0; i < TINY TTY MINORS; ++i) 
tty register device(tiny tty driver, i, NULL); 


为 从 tty 核心 注销 这 个 驱动 ， 所 有 的 通过 调用 tty register device 而 注册 的 tty Wr 
备 需要 使 用 对 tty unregister device 的 调用 来 清理 . 接着 struct tty driver 必须 使 
用 一 个 tty unregister driver 调用 来 注销 . 





ZH OH 




















for (i = 0; i < TINY TTY MINORS; ++i) 
tty unregister device(tiny tty driver, i); 
tty unregister driver(tiny tty driver); 


18. 1. 1， 结 构 struct termios 


在 struct tty driver 中 的 init termios 变量 是 一 个 struct termios. 这 个 变量 被 用 
来 提供 一 个 健全 的 线路 设置 集合 ， 如 果 这 个 端口 在 被 用 户 初始 化 前 使 用 .驱动 初始 化 这 个 
变量 使 用 一 个 标准 的 数值 集 ， 它 拷贝 自 tty std termios 变量 . tty std termos 在 tty 
核心 被 定义 为 : 
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struct termios tty std termios = { 

.c iflag - ICRNL | IXON, 

.c oflag = OPOST | ONLCR, 

.c cflag - B38400 | CS8 | CREAD | HUPCL, 

.c lflag - ISIG | ICANON | ECHO | ECHOE | ECHOK | 

ECHOCTL | ECHOKE | IEXTEN, 

.C cc = INIT C CC 

E 





这 个 struct termios 结构 用 来 持 有 所 有 的 当前 线路 设置 ， 给 这 个 tty 设备 的 一 个 特定 
端口 ， 这 些 线路 设置 控制 当前 波 特 率 ， 数 据 大 小 ， 数 据 流 探 设置 ， 以 及 许多 其 他 值 . 这 个 
结构 的 不 同 成 员 是 : 














tcflag t c iflag; 





输入 模式 标志 


tcflag t c oflag; 








输出 模式 标志 


tcflag t c cflag; 





控制 模式 标志 


tcflag t c lflag; 





本 地 模式 标志 
cc t c line; 


线路 规程 类 型 





cc t c cc[NCCS] ; 


一 个 控制 字符 数组 








所 有 的 模式 标志 被 定义 为 一 个 大 的 位 段 ， 模 式 的 不 同 值 ， 以 及 它们 用 在 哪里 ， 可 以 见 在 任 
何 Linux 发 布 中 都 有 的 termios 手册 页 内核 提供 了 一 套 有 用 的 宏 定义 来 获得 不 同 的 位 . 
这 些 宏 定 义 在 头 文件 include/linux/tty.h 中 定义 . 





























所 有 的 在 tiny tty driver 变量 中 定义 的 成 员 有 必要 有 一 个 工作 的 tty 驱动 ，owner 成 
员 是 为 了 防止 tty 驱动 在 tty 端口 打开 时 被 和 卸载， 在 以 前 的 内 核 版 本 ， 它 由 tty 驱动 
自己 负责 处 理 模 块 引 用 计数 逻辑 . 但 是 内 核 程序 员 认 为 可 能 有 困难 来 解决 所 有 的 不 同 的 可 
能 的 竞争 条 件 ， 因 此 tty 核心 为 tty 驱动 处 理 所 有 的 这 样 的 控制 .. 





























driver name 和 name 成 员 看 起 来 非常 相似 ， 然 而 用 于 不 同 用 途 . driver name 变量 应 当 
设 为 某 个 简单 的 ， 描 述 性 的 并 且 和 内 核 中 所 有 tty 驱动 中 是 唯一 的 值 . 这 是 因为 它 在 
/proc/tty/drivers 文件 中 出 现 来 描述 这 个 驱动 给 用 户 ， 以 及 在 当前 已 加 载 的 tty 驱动 
的 sysfs tty 类 目录 . name 成 员 用 来 定义 一 个 名 子 给 单独 的 分 配给 这 个 tty 驱动 的 
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tty 节点 在 /dev 树 中 . 这 个 字符 串 用 来 创建 一 个 tty 设备 通过 在 这 个 字 串 的 后 面 追加 
在 使 用 的 tty 设备 号 ， 它 还 用 来 创建 一 个 设备 名 子 在 sysfs /sys/class/tty 目录 中 . 
如 果 devfs 在 内 核 中 被 使 能 ， 这 个 名 子 应 当 包 含 任 何 这 个 tty 驱动 想 被 放 入 的 子 目 录 . 
作为 一 个 例子 ， 内 核 中 的 串口 驱动 设置 这 个 name 成 员 为 tts/ WR devfs 被 使 能 ， 
ttyS 如 果 它 没有 被 使 能 ， 这 个 字 串 也 显示 在 /proc/tty/drivers 文件 中 . 
































如 同 我 们 提 及 的 ，/]proc/tty/drivers 文件 展示 所 有 的 当前 注册 的 tty 驱动 . 在 内 核 中 
注册 的 tiny_tty 驱动 并 且 没 有 devfs， 这 个 文件 看 来 如 下 : 


$ cat /proc/tty/drivers 








tiny tty /dev/ttty 240 0-3 serial 
usbserial /dev/ttyUSB | 188 0-254 serial 

serial /dev/ttyS 4 64-107 serial 

pty slave / dev/pts 136 0-255  pty:slave 

pty master / dev/ptm 128 0-255  pty:master 

pty slave / dev/ttyp 3 0-255  pty:slave 

pty master /dev/pty 2 0-255  pty:master 
unknown /dev/vc/ 4 1-63 console 

/ dev/vc/0 / dev/vc/0 4 0 system:vtmaster 
/ dev/ptmx / dev /ptmx 5 2 system 
/dev/console /dev/console 5 1 system:console 
/ dev/tty /dev/tty 5 0 system: /dev/tty 


还 有 ， 当 otny tty driver 被 注册 到 tty 核心 ，sysfs 目录 /sys/class/tty 看 来 有 些 
象 下 面 : 


$ tree /sys/class/tty/ttty* 
/sys/class/tty/tttyO 

'— dev 
/sys/class/tty/tttyl 

'— dev 

/ sys/class/tty/ttty2 

`—— dev 
/sys/class/tty/ttty3 

'— dev 


$ cat /sys/class/tty/ttty0/dev 
240:0 


major 变量 描述 这 个 驱动 的 主编 号 是 什么 ，type 和 subtype 变量 声明 这 个 驱动 是 什么 
tty 驱动 ， 对 于 我 们 的 例子 ， 我 们 是 一 个 “正常 “类 型 的 串口 驱动 . 一 个 tty 驱动 的 唯一 
的 其 他 子 类 型 可 能 是 一 个 “callout” 类 型 ，callout 设备 传统 上 用 来 控制 一 个 设备 的 线 
路 设置 ， 数据 应 当 通 过 一 个 设备 节点 被 发 送 和 接收 ， 并 且 任 何 路 线 设置 改变 应 当 被 发 送 给 
一 个 不 同 的 设备 节点 ， 它 是 这 个 callout 设备 .这 要 求 使 用 2 个 次 编号 为 每 个 tty W 
备 ， 感 激 地 ， 所 有 的 驱动 既 处 理 数 据 也 处 理 线路 设置 在 同一 个 设备 节点 ， 并 且 这 个 
callout 类 型 很 少 用 在 新 驱动 中 . 





























tty 驱动 和 tty 核心 都 使 用 flags 变量 来 指示 驱动 的 当前 状态 和 它 是 什么 类 型 tty I 
动 。 儿 个 在 测试 或 者 操作 flags 时 你 必须 使 用 的 位 掩 码 宏 被 定义 了 .flags 变量 中 的 3 
个 位 可 被 驱动 设置 : 
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TTY DRIVER RESET TERMIOS 


这 个 标志 说 明 tty 核心 复位 了 termios 设置 ， 无 论 何 时 最 后 一 个 进程 已 关闭 这 个 
设备 ， 对 于 控制 台 和 pty 驱动 这 是 有 用 的 . 例如， 假定 用 户 留置 一 个 终端 在 一 个 
奇怪 的 状态 ， 在 设置 了 这 个 标志 时 ， 这 个 终端 被 复位 为 一 个 正常 值 当 用 户 注销 或 者 
控制 个 会 话 的 进程 被 * 杀 掉 ”. 








TTY DRIVER REAL RAW 


这 个 标志 说 明 tty 驱动 保证 发 送 奇偶 或 者 坏 字 符 通知 给 线路 规程 ， 这 允许 线路 规 
程 以 一 种 更 快 的 方式 来 处 理 接 收 到 的 字符 ， 因 为 它 不 必 碍 看 从 tty 驱动 收 到 的 每 
个 字符 .因为 速度 的 得 益 ， 这 个 值 常常 为 所 有 tty 驱动 设置 . 














TTY DRIVER NO DEVFS 





这 个 标志 说 明 当 调用 tty register driver Hj, tty es devfs AH 
给 这 个 tty 设备 ， 这 对 任何 动态 创建 和 销毁 次 设备 的 驱动 都 是 有 益 的 .设置 这 个 
的 驱动 的 例子 是 这 个 USB- 到 -串口 驱动 ，USB 猫 驱 动 ，USB 蓝牙 了 驱动， 以 及 
好 多 标准 串口 设备 . 








当 tty 驱动 后 来 想 注 册 一 个 特殊 的 tty 设备 到 tty 核心 ， 它 必须 调用 
tty_register_device， 有 一 个 指针 到 这 个 tty 驱动 ， 并 且 设 备 的 次 编号 已 被 创建 .如果 
2 ur tty 核心 仍然 传递 所 有 的 调用 到 这 个 tty 驱动 ， 但 是 一 些 内 部 的 tty 4H 
关 的 功能 可 能 不 存在 .这 个 包括 新 tty 设备 的 /sbin/hotplug 通知 和 tty 设备 的 
sysfs ER 当 注 册 的 tty 设备 从 机 右 中 被 移出 ，tty 驱动 必须 调用 


tty unregister device. 











The one remaining bit in this variable is controlled by the tty core and is 
called TTY DRIVER INSTALLED. This flag is set by the tty core after the driver 
has been regis-tered and should never be set by a tty driver. 

这 个 变量 中 剩 下 的 一 位 被 tty 核心 控制 ， 被 称 为 TTY DRIVER INSTALLED. 这 个 标志 被 
tty 核心 在 驱动 已 注册 后 设置 并 且 应 当 从 不 被 tty 驱动 设置 . 


18.2. tty driver 函数 指针 


Jit, tiny tty 驱动 声明 了 4 个 函数 指针 . 








18.2.1. open 和 close 


open 函数 被 tty 核心 调用 ， 当 一 个 用 户 对 这 个 tty 驱动 被 分 配 的 设备 节点 调用 open 
Hf. tty 核心 使 用 一 个 指向 分 配给 这 个 设备 的 tty struct Ms. 还 用 一 个 
文件 指针 ， 这 个 open 成 员 必 须 被 一 个 tty 驱动 为 它 能 正确 工作 而 设置 ; 否则 ，-ENODEV 
被 返回 给 用 户 当 调用 open B. 


























当 调 用 这 个 open 函数 ，tty 驱动 被 期 望 或 者 保存 一 些 传递 给 它 的 tty struct 变量 中 的 
数据 ， 或 者 保存 一 个 可 以 基于 端口 次 编写 来 引用 的 静态 数组 中 的 数据 ， 这 是 有 必要 的 ， 所 
以 tty 驱动 知道 哪个 设备 在 被 引用 当 以 后 的 close，write， 和 其 他 函数 被 调用 时 . 
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tiny tty 驱动 保存 一 个 指针 在 tty 结构 中 ， 如 同 下 面 代码 所 见 到 : 


static int tiny open(struct tty struct *tty, struct file *file) 
{ 

struct tiny serial *tiny; 

struct timer list *timer; 

int index; 


/* initialize the pointer in case something fails */ 
tty-^»driver data = NULL; 


/* get the serial object associated with this tty point 
index = tty-^index; 
tiny = tiny table[index]; 
if (tiny == NULL) 
{ 
/* first time accessing this device, let's crea 
tiny = kmalloc (sizeof (*tiny), GFP KERNEL); 
if (!tiny) 


return -ENOMEM; 
init MUTEX (&tiny-^sem); 
tiny-^open count = 0; 
tiny-^timer = NULL; 


tiny table[index] = tiny; 


) 


down (&tiny-?sem); 

/* save our structure within the tty structure */ 
tty-^driver data = tiny; 

tiny-^tty = tty; 





在 这 个 代码 中 ，tiny_serial 结构 被 保存 在 tty 结构 中 .这 人 允 i 


er */ 


te it */ 


VT tiny write, 








tiny write room, 和 tiny close 函数 来 获取 tiny serial 结构 和 正确 操作 它 . 





tiny serial 结构 定义 为 : 


Struct tiny Serial 


{ 


struct tty_struct *tty; /* pointer to the tty for th 
int open_count; /* number of times this port 
struct semaphore sem; /* locks this structure */ 


struct timer list  *timer; 


3 


is device */ 
has been opened */ 


如 同 我 们 已 见 到 的 ，open_count 变量 初始 化 为 0 在 第 一 次 打开 端口 的 open 调用 中 . ix 


是 一 个 典型 的 引用 计数 ， 因 为 一 个 tty 驱动 的 open 和 close 








函数 可 能 对 同一 个 设备 多 


次 调用 以 便 多 个 进程 来 读 写 数据 ， 为 正确 处 理 所 有 的 事情 ， 必 须 保 持 一 个 这 个 端口 被 打开 
或 者 关闭 的 次 数 计数 ， 这 个 驱动 递增 和 递 碱 这 个 计数 在 打开 使 用 时 ， 当 打开 第 一 次 被 打开 ， 
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任何 必要 的 硬件 初始 化 和 内 存 分 配 可 以 做 ， 当 端口 被 最 后 一 次 关闭 ， 任 何必 要 的 硬件 关闭 
和 内 存 清理 可 以 做 . 

















tiny open 函数 的 剩 下 部 分 展示 了 如 何 跟踪 设备 被 打开 的 次 数 : 


++tiny->open_count ; 

if (tiny->open count == 1) 

{ 
/* this is the first time this port is opened */ 
/* do any hardware initialization needed here */ 


} 


open 函数 必须 返回 或 者 一 个 负 的 错误 号 如 果 发 生 事情 阻止 了 成 功 打开 ， 或 者 一 个 0 来 表 
示 成 功 . 











close 函数 指针 被 tty 核心 调用 ， 在 用 户 对 前 面 使 用 open 调用 而 创建 的 文件 句柄 调用 
close 时 .这 表示 设备 应 当 在 这 次 被 关闭 .但 是 ， 因 为 open 函数 可 被 多 次 调用 ，close 
函数 也 可 多 次 调用 .因此 这 个 函数 应 当 跟 踪 它 被 调用 的 次 数 来 决定 是 否 人 硬件 应 当 在 此 次 真 
正 被 关闭 .tiny_tty 驱动 做 这 个 使 用 下 面 的 代码 : 








static void do close(struct tiny serial *tiny) 
{ 


down (&tiny->sem) ; 


if (!tiny->open count) 

{ 
/* port was never opened */ 
goto exit; 


} 
—-tiny->open_count; 
if (tiny->open_count <= 0) 


{ 
/* The port is being closed by the last user. */ 
/* Do any hardware specific stuff here */ 
/* shut down our timer */ 
del timer (tiny-^timer); 
} 


exit: 
up (&tiny-^sem); 


} 


static void tiny close(struct tty struct *tty, struct file *file) 
{ 


struct tiny serial *tiny = tty-^driver data; 


if (tiny) 
do close(tiny); 
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tiny close 函数 只 是 调用 do close 函数 来 完成 实际 的 关闭 设备 工作 .因此 关闭 逻辑 不 
必 在 这 里 和 驱动 被 卸载 和 端口 被 打开 时 重复 . close 函数 没有 返回 值 ， 因 为 它 不 被 认为 会 
失败 . 


18. 2. 2， 数 据 流 


write 函数 被 用 户 在 有 数据 发 送 给 硬件 时 调用 .首先 tty 核心 接收 到 调用 ， 接 着 它 传递 
数据 到 tty 驱动 的 write 函数 .tty 核心 还 告知 tty 驱动 要 发 送 的 数据 大 小 . 





























有 时 ， 因 为 速度 和 tty 硬件 的 缓冲 区 容量 ， 不 是 所 有 的 写 程序 要 求 的 字符 可 以 在 调用 写 
函数 时 发 送 ， 这 个 写 函数 应 当 返 回 能 够 发 送 给 硬件 的 字符 数 〈 或 者 在 以 后 时 间 可 排队 发 
送 )， 因 此 用 户 程序 可 以 检查 是 否 所 有 的 数据 真正 写 入 ， 这 种 检查 在 用 户 空 间 非 常 容易 完 
成 ， 比 一 个 内 核 驱动 站 着 睡眠 直到 所 有 的 请 求 数 据 能 够 被 发 送 ， 如 果 任何 错误 发 生 在 
wirte 调用 期 间 ， 一 个 负 的 错误 值 应 当 被 返回 代替 被 写 入 的 字 节 数 . 


























write 函数 可 从 中 断 上 下 文 和 用 户 上 下 文中 被 调用 .知道 这 一 点 是 重要 的 ， 因 为 tty Jk 
动 不 应 当 调 用 任何 可 能 当 它 在 中 断 上 下 文中 睡眠 的 函数 这些 包括 任何 可 能 调用 调度 的 函 
数 ， 例 如 普通 的 函数 copy from user，kmalloc， 和 printk. 如 果 你 确实 想 睡 眠 ， 确 信 
去 首先 检查 是 否 驱动 在 中 断 上 下 文 ， 通 过 调用 calling in interrupt. 














这 个 例子 tiny tty 驱动 没有 连接 到 任何 真实 的 硬件 ， 因 此 它 的 写 函 数 简 单 地 将 要 写 的 什 
么 数据 记录 到 内 核 调 斌 日志， 它 使 用 下 面 的 代码 做 这 个 : 





static int tiny write(struct tty struct *tty, const unsigned char *buffer, int count) 
{ 
struct tiny serial *tiny = tty->driver data; 
int 1; 
int retval = -EINVAL; 
if (!tiny) 
return -ENODEV; 


down (&tiny-^sem); 

if (!tiny-^open count) 
/* port was not opened */ 
goto exit; 


/* fake sending the data out a hardware port by 
* writing it to the kernel debug log 
*/ 
printk (KERN_DEBUG "Ws — ^, _ FUNCTION ); 
for (i = 0; i < count; ++i) 
printk(*02x ^", buffer[i]); 
printk (^n^) ; 


exit: 
up (&tiny-^sem); 
return retval; 
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当 tty 子 系统 自己 需要 发 送 数据 到 tty 设备 之 外 ，write 函数 被 调用 ， 如 果 tty 驱动 
在 tty struct 中 没有 实现 put char 函数 ， 这 会 发 生 ， 在 这 种 情况 下 ，tty 核心 用 一 个 
数据 大 小 为 1 来 使 用 write 函数 回调 . 这 普遍 发 生 在 tty 核心 想 转 换 一 个 新 行 字符 为 
一 个 换行 和 新 行 字符 ， 这 里 的 最 大 的 问题 是 tty 驱动 的 write 函数 必须 不 返回 0 对 于 
这 类 的 调用 .这 意味 着 驱动 必须 写 那 个 数据 的 字 节 到 设备 ， 因 为 调用 者 ( tty 核心 ) 不 
缓冲 数据 和 在 之 后 的 时 间 重 试 ， 因 为 write 函数 不 能 知道 是 否 它 在 被 调用 来 替代 
put_char， 即 便 只 有 一 个 字 节 的 数据 被 发 送 ， 尽 力 实现 write 函数 以 至 于 它 一 直至 少 在 
返回 前 写 一 个 字 节 .许多 当前 的 USB- 到 -串口 的 tty 驱动 没有 遵照 这 个 规则 ， 并 且 因 此 ， 
一 些 终端 类 型 不 能 正确 工作 当 连 接 到 它们 时 . 



































write room KÄR% tty 核心 想 知道 多 少 空间 在 写 缓冲 中 tty 驱动 可 用 . 这 个 数 
字 时 时 改变 随 着 字符 清 室 写 缓冲 以 及 调用 写 函 数 时 ， 添 加 字符 到 这 个 绥 冲 . 








static int tiny write room(struct tty struct *tty) 

{ 
struct tiny serial *tiny = tty->driver data; 
int room - -EINVAL; 


if (!tiny) 
return -ENODEV; 


down (&tiny-?sem); 

if (!tiny-^open count) 

{ 
/* port was not opened */ 
goto exit; 

} 

/* calculate how much room is left in the device */ 

room = 255; 

exit: 
up (&tiny-^sem); 
return room; 


} 
18. 2. 3.， 其 他 缓冲 函数 


一 个 工作 的 tty 驱动 不 需要 在 tty driver 结构 中 的 chars in buffer 函数 ， 但 是 它 被 
推荐 . 这 个 函数 被 调用 当 tty 核心 想 知道 多 少 字符 仍然 保留 在 tty 驱动 的 写 缓冲 中 要 被 
发 送 ， 如 果 驱 动能 够 存储 字符 在 它 发 送 它们 到 硬件 之 前 ， 它 应 当 实 现 这 个 函数 为 了 tty 
核心 能 够 知道 是 否 所 有 的 驱动 中 的 数据 已 经 流出 . 


























3 个 tty driver 结构 中 的 函数 回调 可 以 用 来 刷新 任何 驱动 保留 的 数据 .它们 不 被 要 求实 
现 ， 但 是 推荐 如 果 tty 驱动 能 够 缓冲 数据 在 它 发 送 给 便 件 之 前 .前 2 个 函数 回调 称 为 

flush chars 和 wait until sent. 这 些 函 数 被 调用 当 tty 核心 使 用 put char 函数 回 
调 已 发 送 了 许多 字符 给 tty 驱动 ，flush_chars 函数 回调 被 调用 当 tty 核心 要 tty UK 
动 启动 发 送 这 些 字符 到 硬件， 如果 它 尚未 启动 ， 这 个 函数 被 允许 在 所 有 的 数据 发 送 给 便 件 
之 前 返回 ，wait_until_sent 函数 回调 以 非常 相同 的 发 生 工作 ; 但 是 它 必 须 等 待 直到 所 有 
的 字符 在 返回 到 tty 核心 前 被 发 送 ， 或 者 知道 超时 值 到 时 ， 如 果 这 个 传递 给 
wait until sent 函数 回调 的 超时 值 设 为 0， 函 数 应 当 等 待 直到 它 完 成 这 个 操作 . 
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剩 下 的 数据 刷新 函数 回调 是 flush buffer. 它 被 tty 核心 调用 当 tty 驱动 要 刷新 所 有 
的 仍然 在 它 的 写 缓冲 的 数据 .任何 保留 在 缓冲 中 的 数据 被 于 失 并 且 没 发 送 给 设备 . 


18.2.4. Æ read PX? 
只 使 用 这 些 函 数 ，tiny_tty 驱动 可 被 注册 ， 可 打开 一 个 设备 节点 ， 数 据 被 写 入 设备 ， 关 


闭 设备 节点 ， 以 驱动 注销 和 从 内 核 中 外 载 ， 但 是 tty 核心 和 tty_driver 结构 没有 提供 
一 个 read 函数 ， 换 句 话说 ， 没 有 函数 调用 存在 来 从 驱动 到 tty 核心 获取 数据 . 




















蔡 代 一 个 传统 的 read 函数 ，tty 驱动 负责 发 送 任何 从 硬件 收 到 的 数据 到 tty 核心 。 tty 
核心 缓冲 数据 直到 它 被 用 户 请 求 ， 因 为 tty 核心 提供 的 缓冲 逻辑 ， 对 每 个 tty 驱动 不 必 
要 实现 它 自 己 的 绥 冲 逻辑 ，tty 核心 通知 tty. 驱动 当 一 个 用 户 要 驱动 停止 和 开始 发 送 数 
据 ， 但 是 如 果 内 部 的 tty 绥 冲 满 ， 没 有 这 样 的 通知 发 生 . 





























tty 核心 缓冲 由 tty 驱动 接收 到 的 数据 ， 在 一 个 称 为 struct tty flip buffer 的 结构 
中 . 一 个 flip 缓冲 是 一 个 结构 包含 2 个 主要 数据 数组 .从 tty 设备 接收 到 的 数据 被 存 
储 于 第 一 个 数组 ， 当 这 个 数组 满 ， 任 何等 待 数 据 的 用 户 被 通知 数据 可 以 读 .， 当 用 户 从 这 个 
数组 读数 据 ， 任 何 新 到 的 数据 被 存储 在 第 2 个 数组 ， 当 那个 数组 被 读 空 ， 数 据 再 次 刷新 
给 用 户 ， 并 且 驱 动 开始 填充 第 1 个 数组 ， 本质 上 ， 被 接收 的 数据 “flips” 从 一 个 缓冲 到 
另 一 个 ， 期 望 不 会 溢出 它们 2 个 . 为 试图 阻止 数据 丢失 ， 一 个 tty 驱动 可 以 监视 到 来 的 
数组 多 大 ， 并 且 ， 如 果 它 添 满 ， 及 时 告知 tty 驱动 在 这 个 时 刻 刷新 缓冲 ， 而 不 是 等 待 下 
一 个 可 用 的 机 会 . 























struct tty flip buffer 结构 的 细节 对 tty 驱动 没有 关系 ， 只 有 一 个 例外 ， 可 用 的 计数 . 
这 个 变量 包含 多 少 字 节 当前 留 在 绥 冲 里 可 用 来 接收 数据 ， 如 果 这 个 值 等 于 值 
TTY_FLIPBUF_SIZE， 这 个 flip 缓冲 需要 被 刷新 到 用 户 ， 使 用 一 个 对 

tty flip buffer push 的 调用 . 这 展示 在 下 面 的 代码 : 














for (i = 0; i < data size; ++i) 
{ 
if (tty->flip. count >= TTY FLIPBUF SIZE) 
tty flip buffer push(tty); 
tty insert flip char(tty, data[i], TTY NORMAL); 
} 
tty flip buffer push(tty); 





从 tty 驱动 接收 来 的 要 发 送 给 用 户 的 字符 被 添加 到 flip 缓冲 ， 使 用 对 

tty insert flip char 的 调用 ， 这 个 函数 的 第 一 个 参数 是 数据 应 当 保存 入 的 struct 
tty_struct， 第 2 个 参数 是 要 保存 的 字符 ， 第 3 个 参数 是 任何 应 当 为 这 个 字符 设置 的 标 
志 . 这 个 标志 值 应 当 设 为 TTY NORMAL 如 果 这 个 是 一 个 正常 的 被 接收 的 字符 .如 果 这 是 一 
个 特殊 类 型 的 指示 错误 接收 数据 的 字符 ， 它 应 当 设 为 TTY BREAK, TTY PARITY, EE 
TTY_OVERRUN， 取 决 于 错误 . 


























为 了 “ 推 “ 数 据 给 用 户 ， 进 行 一 个 对 tty flip buffer push 的 调用 ， 这 个 函数 应 当 也 被 调 
用 如 果 flip 缓冲 将 要 溢出 ， 如 同 在 这 个 例子 中 展示 的 .因此 无 论 何 时 数据 被 加 到 flip 
缓冲 ， 或 者 当 flip RI, tty 驱动 必须 调用 tty flip buffer push. 如果 tty 驱动 
可 高 速 接收 数据 ，tty->low_latency 标志 应 当 设 置 ， 它 是 对 tty flip buffer pus 的 调 
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用 被 立刻 执行 当 调用 时 ， 否 则 ，tty_flip_buffer push 调用 会 调度 它 上 自己 来 将 数据 推出 
缓冲 ， 在 之 后 近期 的 一 个 时 间 点 . 


18.3. TTY 线路 设置 


当 一 个 用 户 要 改变 一 个 tty 设备 的 线路 设置 或 者 获取 当前 线路 设置 ， 他 调用 一 个 许多 的 
不 同 termios 用 户 空 间 库 函数 或 者 直接 对 这 个 tty 设备 的 节点 调用 ioctl. tty 核心 转 
换 这 2 种 接口 为 许多 不 同 的 tty 驱动 函数 回调 和 ioctl 调用 . 








18.3.1. set termios K% 


大 部 分 termios 用 户 空间 函数 被 库 转 换 为 一 个 对 驱动 节点 的 ioctl 调用 .大量 的 不 同 的 
tty ioctl 调用 接着 被 tty 核心 转换 为 一 个 对 tty 驱动 的 单个 set termios 函数 调用 . 
set termios 调用 需要 决定 哪个 线路 设置 它 被 请 求 来 改变 ， 接 着 在 tty 设备 中 做 这 些 改 
"e. tty 驱动 必须 能 够 解码 所 有 的 在 termios 结构 中 的 不 同 设置 并 且 响 应 任何 需要 的 改 
变 . 这 是 一 个 复杂 的 任务 ， 因 为 所 有 的 线路 设置 以 很 多 的 方式 被 包装 进 termios 结构 . 









































一 个 set termios 函数 应 当做 的 第 一 件 事 情 是 决定 任何 事情 是 否 真 的 需要 改变 。 这 可 使 
用 下 面 的 代码 完成 : 


unsigned int cflag; 
cflag = tty-^termios-?c cflag; 
/* check that they really want us to change something */ 
if (old termios) 
{ 
if ((cflag == old termios-?c cflag) && 
(RELEVANT IFLAG(tty-^termios-?c iflag) == 

RELEVANT IFLAG(old termios-?c iflag))) { 

printk (KERN_DEBUG ^ - nothing to change... m^); 

return; 


} 


RELEVANT IFLAG 宏 定 义 为 : 





#define RELEVANT IFLAG(iflag) ((iflag) & (IGNBRK |BRKINT|IGNPAR|PARMRK | INPCK) ) 











而 且 用 在 屏蔽 掉 cflags 变量 的 重要 位 ， 接 着 这 个 和 原来 的 值 比较 ， 并 且 看 是 否 它 们 不 同 . 
如 果 不 ， 什 么 不 改变 ， 因 此 我 们 返回 . 注意 old termios 变量 是 第 一 个 被 检查 来 看 是 否 

它 指向 一 个 有 效 的 结构 ， 在 它 被 存 取 之 前 . 这 是 需要 的 ， 因 为 有 时 这 个 变量 被 设 为 NULL. 

试图 存 取 一 个 NULL 指针 成 员 会 导致 内 核 骨 溃 . 






































为 查看 需要 的 字 节 大 小 ，CSIZE MHRA cflag 变量 区 分 出 正确 的 位 ， 如 果 这 个 
大 小 无 法 知道 ， 习 惯 上 确实 是 8 个 数据 位 ， 这 个 可 如 下 实现 : 




















/* get the byte size */ 
switch (cflag & CSIZE) 
{ 
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case CS5: 
printk(KERN DEBUG ^" - data bits = 5Wn^); 
break; 

case CS6: 
printk (KERN DEBUG ^" - data bits = 6 n^); 
break; 

case CST: 
printk(KERN DEBUG ^" - data bits = 7^); 
break; 

default: 

case CS8: 
printk(KERN DEBUG ^" - data bits = 8\n”); 
break; 


} 




















为 决定 需要 的 奇偶 值 ，PARENB 位 掩 码 可 对 cflag 变量 检查 来 告知 是 否 任何 奇偶 要 被 设置 . 
如 果 这 样 ，PARODD 位 掩 码 可 用 来 决定 是 否 奇偶 应 当 是 奇 或 者 偶 ， 这 个 的 一 个 实现 是 : 











/* determine the parity */ 
if (cflag & PARENB) 
if (cflag & PARODD) 
printk (KERN_DEBUG ^ - parity = oddW^); 
else 
printk (KERN_DEBUG ^" - parity = evenW^); 
else 
printk (KERN_DEBUG ^" - parity = noneW^); 





请 求 的 停止 位 也 可 使 用 CSTOPB 位 掩 码 从 cflag 变量 中 来 知道 ,一 个 实现 是 : 


/* figure out the stop bits requested */ 
if (cflag & CSTOPB) 

printk (KERN_DEBUG ^" - stop bits = 2\n”); 
else 


! 


printk(KERN DEBUG ^" - stop bits = 1\n^); 








有 2 个 基本 的 流 控 类 型 : 硬件 和 软件 ， 为 确定 是 否 用 户 要 求 硬件 流 探 ，CRTSCTS 位 掩 码 
用 来 对 cflag 变量 检查 . 它 的 一 个 例子 是 : 


/ figure out the hardware flow control settings */ 
if (cflag & CRTSCTS) 

printk(KERN DEBUG ” - RTS/CTS is enabledW^); 
else 

printk(KERN DEBUG " - RTS/CTS is disabledWn^); 





确定 软件 流 控 的 不 同 模式 和 不 同 的 起 停 字 符 是 有 些 复杂 : 





/ determine software flow control */ 
/* if we are implementing XON/XOFF, set the start and 


* stop character in the device */ 


if (I IXOFF(tty) || I IXON(tty)) 
{ 
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unsigned char stop char = STOP CHAR(tty); 
unsigned char start char = START CHAR (tty); 


/* if we are implementing INBOUND XON/XOFF */ 
if (I IXOFF(tty)) 
printk(KERN DEBUG ^ - INBOUND XON/XOFF is enabled, ^ 
“XON = %2x, XOFF = %2x”, start char, stop char); 
else 
printk(KERN DEBUG” - INBOUND XON/XOFF is disabled”); 


/* if we are implementing OUTBOUND XON/XOFF */ 
if (I IXON(tty)) 
printk(KERN DEBUG^ - OUTBOUND XON/XOFF is enabled, ^ 
“XON = %2x, XOFF = *2x^, start char, stop char); 
else 
printk(KERN DEBUG” — OUTBOUND XON/XOFF is disabled"); 
) 











最 后 ， 波 特 率 需 要 确定 .tty 核心 提供 了 一 个 函数 ，tty_get_baud_rate， 来 帮助 做 这 个 . 
这 个 函数 返回 一 个 整 型 数 指示 请 求 的 波 特 率 给 特定 的 tty 设备 . 











/* get the baud rate wanted */ 
printk (KERN DEBUG ^ - baud rate = *d^, tty get baud rate(tty)); 





现在 tty 驱动 已 经 确定 了 所 有 的 不 同 的 线路 设置 ， 它 可 以 基于 这 些 值 正 确 设置 便 件 . 
18.3.2. tiocmget 和 tiocmset 


在 2.4 和 老 的 内 核 ， 常 常 有 许多 tty ioctl 调用 来 获得 和 设置 不 同 的 控制 线路 设置 ， 这 
些 被 常量 TIOCMGET，TIOCMBIS，TIOCMBIC， 和 TIOCMSET 表示 . TIOCMGET 用 来 获得 内 核 
的 线路 设置 值 ， 并 且 对 于 2.6 内 核 ， 这 个 ioctl 调用 已 经 被 转换 为 一 个 tty 驱动 回调 
函数 ， 称 为 tiocmget， 其 他 的 3 个 ioctls 已 经 被 简化 并 且 现 在 用 单个 的 tty 驱动 回 
调 函数 所 代表 ， 称 为 tiocmset. 











tty 驱动 中 的 iocmget 函数 被 tty 核心 所 调用 ， 当 核心 需要 知道 当前 的 特定 tty 设备 
的 控制 线 的 物理 值 ， 这 常常 用 来 获取 一 个 串口 的 DTR 和 RTS 线 的 值 ， 如 果 tty 驱动 不 
能 直接 读 串 口 的 MSR 或 者 MCR 寄存 器 ， 因 为 硬件 不 允许 这 样 ， 一 个 它们 的 拷贝 应 当 在 本 
地 保持 .许多 USB- 到 -串口 驱动 必须 实现 这 类 的 “影子 ”变量 .这 是 这 个 函数 能 如 何 被 实 
现 ， 任 何 一 个 本 地 的 这 些 值 的 拷贝 被 保存 : 

















static int tiny tiocmget(struct tty struct *tty, struct file *file) 
{ 

struct tiny serial *tiny = tty->driver data; 

unsigned int result = 0; 

unsigned int msr = tiny-?msr; 

unsigned int mcr = tiny-?mcr; 





result = ((mcr & MCR DTR) ? TIOCM DTR : 0) | /* DTR is set */ 
((mcr & MCR RTS) ? TIOCM RTS : 0) | /* RTS is set */ 
((mcr & MCR LOOP) ? TIOCM LOOP : 0) | /* LOOP is set */ 
((msr & MSR CTS) ? TIOCM CTS : 0) | /* CTS is set */ 
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((msr & MSR CD) ? TIOCM CAR : 0) | /* Carrier detect is set*/ 
((msr & MSR RD ? TIOCM RI : 0) | /* Ring Indicator is set */ 
((msr & MSR DSR) ? TIOCM DSR : 0); /* DSR is set */ 


return result; 


} 





在 tty 驱动 中 的 tiocmset 函数 被 tty 核心 调用 ， 当 核心 要 设置 一 个 特定 tty 设备 的 
控制 线 值 ， tty 核心 告知 tty 驱动 设置 什么 值 和 清理 什么 ， 通 过 传递 它们 用 2 个 变量 : 
set 和 clear. 这 些 变量 包含 一 个 应 当 改变 的 线路 设置 的 位 掩 码 ， 一 个 ioctl eru 
请 求 驱 动 既 设置 又 清理 一 个 特殊 的 位 在 同一 时 间 ， 因 此 先 发 生 什 么 操作 没有 关系 .这 

个 例子 ， 关 于 这 个 函数 如 何 能 够 由 一 个 tty 驱动 实现 : 

















static int tiny tiocmset (struct tty struct *tty, struct file *file, unsigned int set 
unsigned int clear) 
{ 

struct tiny serial *tiny = tty->driver data; 

unsigned int mcr = tiny-?mcr; 


if (set & TIOCM RTS) 
mcr |- MCR RTS; 

if (set & TIOCM DTR) 
mcr |- MCR RTS; 


if (clear & TIOCM RTS) 
mcr &- ^MCR RTS; 

if (clear & TIOCM DTR) 
mcr &- ^MCR RTS; 


/* set the new MCR value in the device */ 
tiny-^mcr = mcr; 
return 0; 


18.4. ioctls M% 


在 struct tty driver 中 的 ioctl AAE tty 核心 调用 当 ioctl(2) 被 在 设备 节点 上 
调用 ， 如 果 这 个 tty 驱动 不 知道 如 何 处 理 传递 给 它 的 ioctl 值 ， 它 应 当 返 回 - 
ENOIOCTLCMD 来 试图 让 tty 核心 实现 一 个 通用 的 调用 版 本 . 








2.6 内 核定 义 了 大 约 70 个 不 同 的 tty ioctls， 可 被 用 来 发 送 给 一 个 tty 驱动 ， 大 部 分 
的 tty 驱动 不 处 理 它们 全 部 ， 但 是 只 有 一 个 小 的 更 普通 的 子 集 . 这 是 一 个 更 通 前 用 的 tty 
ioctls 列表 ， 它 们 的 含义 ， 以 及 如 何 实现 它们 : 











TIOCSERGETLSR 
获得 这 个 tty 设备 的 线路 状态 寄存 器 ( LSR ) 的 值 . 
TIOCGSERIAL 
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获得 串口 线 信息 .调用 者 可 以 潜在 地 从 tty 设备 获得 许多 串口 线路 信息 ， 在 这 个 
调用 中 一 次 全 部 ， 一 些 程序 ( 例如 setserial 和 dip) 调用 这 个 函数 来 确保 波 特 
率 被 正确 设置 ， 以 及 来 获得 通常 的 关于 驱动 控制 的 设备 类 型 信息 .调用 者 传递 一 个 
指向 一 个 大 的 serial struct 结构 的 指针 ， 这 个 结构 应 当 由 tty. 驱动 填充 正确 的 
值 ， 这 是 一 个 如 何 实现 这 个 的 例子 : 




















static int tiny ioctl(struct tty struct *tty, struct file *file, unsigned int cmd, 
unsigned long arg) 
{ 
struct tiny serial *tiny = tty->driver data; 
if (cmd == TIOCGSERIAL) 
{ 
struct serial_struct tmp; 
if (larg) 
return -EFAULT; 
memset(&tmp, 0, sizeof(tmp)); 
tmp. type = tiny-?serial. type; 
tmp 
tmp 
tmp. irq = tiny-?serial. irq; 
tmp. flags = ASYNC SKIP TEST | ASYNC AUTO IRQ; 


.line = tiny-?serial. line; 
.port = tiny-?serial. port; 


tm 
tm 
tm 
tm 
tm 


xmit fifo size = tiny-^serial.xmit fifo size; 

baud base = tiny-?serial.baud base; 

close delay = 5*HZ; 

closing wait - 30*HZ; 

custom divisor = tiny-?serial.custom divisor; 

tmp. hub6 = tiny-^serial. hub6; 

tmp. io type = tiny->Serial. io type; 

if (copy to user((void user *)arg, &tmp, sizeof(tmp))) 
return -EFAULT; 

return 0; 





DR cac 


} 
return -ENOIOCTLCMD; 


} 
TIOCSSERIAL 


设置 串口 线路 信息 . 这 是 IOCGSERIAL 的 反面 ， 并 且 允 许 用 户 一 次 全 部 设置 tty 
设备 的 串口 线 状态 ， 一 个 指向 struct serial struct 的 指针 被 传递 给 这 个 调用 ， 
填 满 这 个 tty 设备 应 当 被 设置 的 数据 ， 如 果 这 个 tty 驱动 没有 实现 这 个 调用 ， 大 
部 分 程序 仍然 正确 工作 . 























TIOCMIWAIT 


等 待 MSR 改变 ， 用 户 在 非 寻 常 的 情况 下 请 求 这 个 ioct1， 它 想 在 内 核 中 睡眠 直到 
这 个 tty 设备 的 MSR 寄存 器 发 生 某 些 事情 ，arg 参数 包含 用 户 在 等 待 的 事件 类 型 . 
这 通常 用 来 等 待 直到 一 个 状态 线 变化 ， 指 示 有 更 多 的 数据 发 送 给 设备 . 
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当 实 现 这 个 ioctl 时 要 小 心 ， 并 且 不 要 使 用 interruptible sleep on WH, 
为 它 是 不 安全 的 (有 很 多 不 好 的 竞争 条 件 涉及 它 )， 相反 ， 一 个 wait queue 应 当 用 
来 避免 这 个 问题 ， 这 是 一 个 如 何 实现 这 个 ioctl 的 例子 : 











static int tiny ioctl(struct tty struct *tty, struct file *file, unsigned int cmd, 
unsigned long arg) 
{ 

struct tiny serial *tiny = tty->driver data; 

if (cmd == TIOCMIWAIT) 

{ 


DECLARE_WAITQUEUE (wait, current) ; 
struct async icount cnow; 

struct async icount cprev; 

cprev = tiny-Picount; 

while (1) ( 


add wait queue(&tiny-?wait, &wait); 
set current state(TASK INTERRUPTIBLE) ; 
schedule(); 
/* see if a signal woke us up */ 
remove wait queue(&tiny-^wait, &wait); 
if (signal pending(current)) 
return -ERESTARTSYS; 
cnow = tiny-Picount; 
if (cnow. fng == cprev.rng && cnow.dsr -- cprev.dsr && 
cnow. decd == cprev.dcd && cnow.cts == cprev.cts) 
return -EIO; /* no change => error */ 
if (((arg & TIOCM RNG) && (cnow.rng != cprev.rng)) || 
((arg & TIOCM DSR) && (cnow.dsr != cprev.dsr)) || 
((arg & TIOCM CD) && (cnow.dcd != cprev.dcd)) || 
((arg & TIOCM CTS) && (cnow.cts != cprev.cts)) ) ( 
return 0; 
} 
cprev = cnow; 
} 
} 
return -ENOIOCTLCMD; 
) 


在 tty WERP RERE MSR 寄存 器 改变 的 茶 些 地 方 ， 下 面 的 代码 行 必须 调用 
以 便 这 个 代码 能 正常 工作 : 





wake up interruptible(&tp-^wait); 
TIOCGICOUNT 





获得 中 断 计数 ， 当 用 户 要 知道 已 经 产生 多 少 串口 线 中 断 时 调用 ， 如 果 驱 动 有 一 个 中 
断 处 理 ， 它 应 当 定义 一 个 内 部 计数 器 结构 来 跟踪 这 些 统计 和 递增 适当 的 计数 器 ， 每 
次 这 个 函数 被 内 核 运行 时 . 
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这 个 ioctl 调用 传递 内 核 一 个 指向 结构 serial icounter struct 的 指针 ， 它 应 当 被 
tty 驱动 填充 ， 这 个 调用 常常 和 之 前 的 IOCMIWAIT ioctl 调用 结合 使 用 ， 如 果 tty 驱动 
跟踪 所 有 的 这 些 中 断 在 驱动 操作 时 ， 实 现 这 个 调用 的 代码 会 非常 简单 : 














static int tiny ioctl(struct tty struct *tty, struct file *file, unsigned int cmd, 
unsigned long arg) 
{ 
struct tiny serial *tiny = tty->driver data; 
if (cmd == TIOCGICOUNT) 
{ 
struct async icount cnow = tiny->icount; 
struct serial icounter struct icount; 
icount.cts - cnow.cts; 
icount.dsr = cnow. dsr; 
icount.rng = cnow. rng; 
icount. dcd = cnow. dcd; 
icount.rx - cnow.rx; 
icount. tx = cnow. tx; 
icount. frame = cnow. frame; 
icount. overrun = cnow. overrun; 
icount. parity = cnow. parity; 
icount. brk = cnow. brk; 
icount. buf overrun = cnow. buf overrun; 
if (copy to user((void | user *)arg, &icount, sizeof(icount))) 
return -EFAULT; 
return 0; 
} 
return -ENOIOCTLCMD; 


18.5. TTY 设备 的 proc 和 sysfs 处 理 


tty 核心 提供 一 个 非常 容易 的 方式 给 任何 tty 驱动 来 维护 一 个 文件 在 /proc/tty/driver 
目录 中 .如 果 驱 动 定义 read proc 或 者 write proc 函数 ， 这 个 文件 被 创建 接着 ， 任 
何在 这 个 文件 上 的 读 或 写 调用 被 发 送 给 这 个 驱动 这些 函 数 的 格式 只 象 标准 的 /proc X 
件 处 理 函 数 . 




















作为 一 个 例子 ， 由 一 个 简单 的 read proc tty 回调 实现 ， 只 是 打印 出 当前 注册 的 端口 号 : 


static int tiny read proc(char *page, char **start, off t off, int count, 
int *eof, void *data) 
{ 
struct tiny serial *tiny; 
off t begin = 0; 
int length = 0; 
int 1; 


length += sprintf(page, “tinyserinfo:1.0 driver:%s\n”, DRIVER VERSION); 
for (i = 0; i < TINY TTY MINORS && length < PAGE SIZE; ++i) { 

tiny = tiny table[i]; 

if (tiny == NULL) 
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continue; 
length += sprintf(page-length, ^*dWn^, i); 
if ((length + begin) > (off + count)) 

goto done; 


if ((length + begin) < off) { 
begin += length; 
length - 0; 


} 
} 
*eof = 1; 
done: 
if (off >= (length + begin)) 


return 0; 
*start = page + (off-begin); 
return (count € begin*length-off) ? count : begin + length-off; 





} 





tty 核心 处 理 所 有 的 sysfs 目录 和 设备 创建 ， 当 tty 驱动 被 注册 时 ， 或 者 当 单 个 tty 
设备 被 创建 时 ， 依 赖 在 struct tty driver 中 的 TTY DRIVER NO DEVFS 标志 . 单个 目录 
一 直 包 含 dev 文件 ， 它 允许 用 户 空 间 工 具 来 决定 分 配给 设备 的 主 次 写 ， 它 还 包含 一 个 
device 和 driver 符号 连接 ， 如 果 一 个 指向 有 效 的 struct device 的 指针 被 传递 给 读 
tty register device 的 调用 . 除了 这 3 个 文件 ， 对 单个 tty 驱动 不 可 能 在 这 个 位 置 创 
建新 的 sysfs 文件 ， 这 个 会 可 能 在 将 来 的 内 核发 行 中 改变 . 


18.6. tty driver 结构 的 细节 


tty driver 结构 用 来 注册 一 个 tty 驱动 到 tty 核心 ， 这 是 结构 中 所 有 不 同 的 成 员 的 列 
表 和 如 何 被 tty 核心 使 用 : 


















































struct module *owner; 
这 个 驱动 的 模块 拥有 者 . 


int magic; 





给 这 个 结构 的 “魔术 “ 值 . 应 当 一 直 设 为 TTY DRIVER MAGIC. 在 alloc tty driver 
函数 中 被 初始 化 . 





const char *driver name; 
驱动 的 名 子 ， 用 在 /proc/tty 和 sysfs. 
const char *name; 


驱动 的 节点 名 . 


491 


Linux[] [] (LinuxIDC.com) [] O [] Ubuntu,Fedora,SUSEQD DODOUITUUULinvuxd0DUUUUO 


Www.linuxidc.com 


LINUX DEVICE DRIVERS, 3RD EDITION 


int name base; 











使 用 的 起 始 数字 ， 当 创建 设备 名 子 时 ， 当 内 核 创建 分 配给 这 个 tty 驱动 的 一 个 特 
XE tty 设备 的 字符 串 表 示 是 使 用 . 











short major; 
驱动 的 主编 号 
short minor start; 


驱动 的 开始 次 编号 ， 这 常常 设 为 name base 的 相同 值 ， 典型 地 ， 这 个 值 设 为 O. 








short num; 











分 配给 这 个 驱动 的 次 编号 个 数 ， 如果 整个 主编 号 范围 被 驱动 使 用 了 ， 这 个 值 应当 设 
为 255， 这 个 变量 在 alloc tty driver 函数 中 初始 化 . 





short type; 
short subtype; 


描述 什么 类 型 的 tty 驱动 在 注册 到 tty 核心 。subtype 的 值 依赖 于 type. type 


成 员 可 能 是 : 





TTY DRIVER TYPE SYSTEM 











由 tty 子 系统 内 部 使 用 来 记 住 它 在 处 理 一 个 内 部 tty 驱动 . subtype 应 当 设 为 
SYSTEM TYPE TTY, SYSTEM TYEP CONSOLE, SYSTEM TYPE SYSCONS， 或 者 
SYSTEM TYPE SYSPTMX， 这 个 类 型 不 应 当 被 任何 “正常 ”tty 驱动 使 用 . 





TTY_DRIVER_TYPE_CONSOLE 
仅 被 控制 全 驱动 使 用 . 


TTY DRIVER TYPE SERIAL 








被 任何 串 行 类 型 驱动 使 用 ，subtype 应 当 设 为 SERIAL TYPE NORMAL 或 者 
SERIAL TYPE_CALLOUT， 根 据 你 的 驱动 是 什么 类 型 . 这 是 type 成 员 的 其 中 一 个 最 
普遍 的 设置 . 


TTY DRIVER TYPE PTY 








被 伪 控 制 台 接口 (pty) fH]. subtype 需要 被 设置 为 PTY TYPE MASTER 或 者 
PTY TYPE SLAVE. 


struct termios init termios; 





当 创 建设 备 时 的 初始 化 struct termios fH. 
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int flags; 


驱动 标志 ， 如 同 本 章 前 面 描述 的 . 





struct proc dir entry *proc entry; 





这 个 驱动 的 /proc 入 口 结构 . 它 由 tty 核心 创建 如 果 驱 动 实现 了 write proc 或 
者 read proc 函数 .这 个 成 员 不 应 当 由 tty 驱动 自己 设置 . 





struct tty driver *other; 











指向 一 个 tty 从 驱动 . 这 只 被 pty 驱动 使 用 ， 并 且 不 应 当 被 其 他 的 tty 驱动 使 
用 . 


void *driver state; 








tty 驱动 的 内 部 状态 ， 应 当 只 被 pty 驱动 使 用 . 


struct tty driver *next; 
struct tty driver *prev; 





连接 变量 . 这 些 变量 被 tty 核心 使 用 来 连接 所 有 的 不 同 tty 驱动 ， 并 且 不 应 当 被 
任何 tty 驱动 碰 . 














18.7. tty operaions 结构 的 细节 


tty operations 结构 包含 所 有 的 函数 回调 ， 可 以 被 一 个 tty 驱动 设置 和 被 tty 核心 调 
H. 当前 ， 所 有 包含 在 这 个 结构 中 的 的 函数 指针 也 在 tty driver 结构 中 ， 但 是 会 很 快 被 
只 有 一 个 这 个 结构 的 实例 来 替代 . 














int Ckopen) (struct tty struct * tty, struct file * filp); 
open 函数 . 
void (*close) (struct tty struct * tty, struct file * filp); 
close 函数 . 
int (*write) (struct tty struct * tty, const unsigned char *buf, int count); 
write KIZ. 
void (*put char) (struct tty struct *tty, unsigned char ch); 
单字 节 写 函数 ， 这 个 函数 被 tty 核心 调用 当 单 个 字 节 被 写 入 设备 .如 果 一 个 tty 


驱动 没有 定义 这 个 函数 ，write 函数 被 调用 来 蔡 代 ， 当 tty 核心 想 发 送 一 个 单个 
FW. 
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void Ckflush chars) (struct tty struct *tty); 
void Ckwait until sent) (struct tty struct *tty, int timeout); 


刷新 数据 到 人 硬件 的 函数 . 

int Ckwrite room) (struct tty struct *tty); 
Tian & b Ep WN BIO ER. 

int (kchars in buffer) (struct tty struct *tty); 
TE E 2D SEP CDS B ER C. 


int Ckioctl) (struct tty struct *tty, struct file * file, unsigned int cmd, 
unsigned long arg); 


ioctl AA. AARE tty 核心 调用 ， 当 ioct1(2) 在 设备 节点 上 被 调用 时 . 
void (kset termios) (struct tty struct *tty, struct termios * old); 


set termios 函数 .这 个 函数 被 tty 核心 调用 ， 当 设备 的 termios 设置 已 被 改变 
时 . 


void Ckthrottle) (struct tty struct * tty); 
void Ckunthrottle) (struct tty struct * tty); 
void (*stop) (struct tty struct *tty); 

void (*start) (struct tty struct *tty); 


数据 抑制 函数 ， 这些 函数 用 来 帮助 控制 tty 核心 的 输入 缓存 ， 这 个 抑制 函数 被 调 
用 当 tty 核心 的 输入 缓冲 满 ，tty 驱动 应 当 试图 通知 设备 不 应 当 发 送 字符 给 它 . 

unthrottle 函数 被 调用 当 tty 核心 的 输入 缓冲 已 被 清空 ， 并 且 它 现在 可 以 接收 更 
多 数据 ，tty 驱动 应 当 接 着 通知 设备 可 以 接收 数据 ，stop 和 start 函数 非常 象 

throttle 和 unthrottle 函数 ， 但 是 它们 表示 tty 驱动 应 当 停 止 发 送 数 据 给 设备 
以 及 以 后 恢复 发 送 数据 . 











void (*hangup) (struct tty struct *tty); 





挂 起 函数 ， 这 个 函数 被 调用 当 tty 驱动 应 当 挂 起 tty 设备 ， 任 何 需要 做 的 特殊 的 
人 硬件 操作 应 当 在 此 时 发 生 . 


void (kbreak ctl) (struct tty struct *tty, int state); 





线路 中 断 控 制 函数 ， 这 个 函数 被 调用 当 这 个 tty 驱动 要 打开 或 关闭 线路 的 BREAK 
状态 在 RS-232 端口 上 ， 如 果 状 态 设 为 -1，BREAK 状态 应 当 打 开 . 如 果 状 态 设 为 
0, BREAK 状态 应 当 关 闭 . 如 果 这 个 函数 由 tty 驱动 实现 ，tty 核心 将 处 理 
TCSBRK，TCSBRKP，TIOCSBRK， 和 TIOCCBRK ioctl. 和 否则， 这些 ioctls 被 发 送 给 
驱动 ioctl 函数 . 
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void Ckflush buffer) (struct tty struct *tty); 


刷新 缓冲 和 丢失 任何 剩 下 的 数据 . 





void (*set ldisc) (struct tty struct *tty); 


设置 线路 规程 的 函数 .这 个 函数 被 调用 当 tty 核心 已 改变 这 个 tty 驱动 的 线路 规 
程 ， 这 个 函数 通 向 不 用 并 且 不 应 当 被 一 个 驱动 定义 . 


void (ksend xchar) (struct tty struct *tty, char ch); 


发 送 X- 类 型 字符 的 函数 ， 这 个 函数 用 来 发 送 一 个 高 优先 级 XON 或 者 XOFF 字符 
给 tty 设备 .要 被 发 送 的 字符 在 ch 变量 中 指定 











int (kread proc) (char *page, char **start, off t off, int count, int *eof, 
void *data); 

int Ckwrite proc) (struct file *file, const char *buffer, unsigned long count, 
void *data); 


/proc iX; p Zt. 
int Cktiocmget) (struct tty struct *tty, struct file *file); 


获得 当前 的 特定 tty 设备 的 线路 设置 ， 如 果 从 tty 设备 成 功 获取 到 ， 应 当 返 回 这 
个 值 给 调用 者 . 


int Cktiocmset) (struct tty struct *tty, struct file *file, unsigned int set, 
unsigned int clear); 


设置 当前 的 特定 tty 设备 的 线路 设置 . set 和 clear 包含 了 去 设置 或 者 清除 的 不 
同 的 线路 设置 . 


18.8. tty struct 结构 的 细节 


tty struct 变量 被 tty 核心 用 来 保持 当前 的 特定 tty 端口 的 状态 ， 儿 乎 它 的 所 有 的 朋 
友 都 只 被 tty 核心 使 用 ， 有 几 个 例外 .一 个 tty 驱动 可 以 使 用 的 成 员 在 此 描述 : 














unsigned long flags; 











tty 设备 的 当前 状态 .这 是 一 个 位 段 变 量 ， 并 且 通 过 下 面 的 宏 定义 存 取 : 


山 | 








TTY_THROTTLED 
当 驱 动 以 及 有 抑制 函数 被 调用 ， 不 应 当 被 一 个 tty 驱动 设置 ， 只 有 tty 核心 . 


TTY IO ERROR 
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由 驱动 设置 当 它 不 想 任 何 数 据 被 读 出 或 写 入 驱动 ， 如 果 一 个 用 户 程序 试图 做 这 个 ， 
它 接收 一 个 -EI0 错误 从 内 核 中 ， 这 常常 在 设备 被 关闭 时 设置 . 








TTY OTHER CLOSED 





只 由 pty 驱动 使 用 来 通知 ， 当 端口 已 经 被 关闭 . 


TTY EXCLUSIVE 





由 tty 核心 设置 来 指示 一 个 端口 在 独占 模式 并 且 只 能 一 次 由 一 个 用 户 存 取 . 





TTY_DEBUG 
内 核 中 任何 地 方 都 不 用 . 
TTY DO WRITE WAKEUP 


如 果 被 设置 ， 线 路 规程 的 write wakeup 函数 被 人 多 许 来 被 调用 .常常 在 
tty driver 调用 wake up interruptible 函数 的 同一 时 间 被 调用 . 





TTY PUSH 





只 被 缺 省 的 tty 线路 规程 内 部 使 用 . 

TTY CLOSING 

tty 核心 用 来 跟踪 是 否 一 个 端口 在 那个 时 刻 及 时 处 于 关闭 过 程 . 
TTY DONT FLIP 


被 缺 省 的 tty 线路 规程 用 来 通知 tty 核心 ， 它 不 应 当 改 变 flip 缓冲 ， 当 它 被 置 


位 . 
TTY HW COOK OUT 


如 果 被 一 个 tty 驱动 设置 ， 它 通知 线路 规程 应 当 ”“ 烹调 “发 送 给 它 的 和 输出， 如果 它 
没有 设置 ， 线 路 规程 成 块 拷贝 驱动 的 输出 ;否则 ， 它 不 得 不 为 线路 改变 将 单个 发 送 
的 字 节 逐 个 求 值 . 这 个 标志 应 当 通 常 不 被 tty 驱动 设置 . 











TTY HW COOK IN 


几乎 和 设置 在 驱动 中 的 flag 变量 中 的 TTY DRIVER REAL RAW 标志 一 致 ， 这 个 标 
志 通 常 应 当 不 被 tty 驱动 设置 . 





TTY PTY LOCK 


pty 驱动 用 来 加 锁 和 解锁 一 个 端口 . 
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TTY NO WRITE SPLIT 





如 果 设 置 ，tty 核心 不 将 对 tty. 驱动 的 写 分 成 正常 大 小 的 块 . 这 个 值 不 应 当 用 来 
阻止 对 tty 端口 通过 发 送 大 量 数据 到 端口 的 DoS 攻击 ， 








struct tty flip buffer flip; 
给 tty 设备 的 flip 缓冲 . 
struct tty ldisc ldisc; 


给 tty 设备 的 线路 规程 . 





wait queue head t write wait; 





给 tty 写 函 数 的 wait queue. 一 个 tty 驱动 应 当 唤 醒 它 , 当 它 可 以 接收 更 多 数据 
Ih. 


struct termios **termios; 

指 回 tty 设备 的 当前 termios 设置 的 指针 . 
unsigned char stopped:l; 

指示 是 否 tty 设备 被 停止 ，tty 驱动 可 以 设置 这 个 值 . 


unsigned char hw stopped:1; 





指示 是 否 tty 设备 的 已 经 被 停止 ，tty 驱动 可 以 设置 这 个 值 . 
unsigned char low latency:1; 


指示 是 否 tty 设备 是 一 个 低 反 应 周期 的 设备 ， 能 够 高 速 接收 数据 ，tty 驱动 可 以 
设置 这 个 值 . 


unsigned char closing:l; 

指示 是 否 tty 设备 在 关闭 端口 当中 .tty 驱动 可 以 设置 这 个 值 . 
struct tty driver driver; 

当前 控制 这 个 tty 设备 的 tty driver 结构 . 


void *driver data; 





jJüfh, tty driver 可 以 用 来 存储 对 于 tty 驱动 本 地 的 数据 ， 这 个 变量 不 被 tty 
核心 修改 . 
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18. 9. 快速 参考 


本 节 提 供 了 对 本 章 介 绍 的 概念 的 参考 ， 它 还 解释 了 每 个 tty 驱动 需要 包含 的 头 文 件 的 角 
f&. 在 tty driver 和 tty device 结构 中 的 成 员 变 量 的 列表 ， 但 是 ， 在 这 里 不 重复 . 




















Sinclude <linux/tty driver. h> 





头 文件 ， 包 含 struct tty driver 的 定义 和 声明 一 些 在 这 个 结构 中 的 不 同 的 标志 . 


#include <linux/tty. h> 








头 文件 ， 包 含 tty struct 结构 的 定义 和 几 个 不 同 的 宏 定义 来 易于 存 取 struct 
termios 的 成 员 的 单个 值 . 它 还 含有 tty 驱动 核心 的 函数 声明 . 


#include <linux/tty flip.h> 








头 文件 ， 包 含 儿 个 tty flip 缓冲 内 联 函数 ， 使 得 易于 操作 flip 缓冲 结构 . 


Hinclude <asm/termios. h> 





头 文件 ， 包 含 struct termio 的 定义 ， 用 于 内 核 所 建立 的 特定 硬件 平台 . 








struct tty driver *alloc tty driver(int lines); 





函数 ， 创 建 一 个 struct tty driver， 可 之 后 传递 给 tty register driver 和 
tty unregister driver AŽ. 





void put tty driver(struct tty driver *driver); 





函数 ， 清 理 尚 未 成 功 注 册 到 tty 内 核 的 struct tty driver 结构 . 








void tty set operations(struct tty driver *driver, struct tty operations *op); 





函数 ， 初 始 化 struct tty driver 的 函数 回调 有 必要 在 tty register driver 
可 被 调用 前 调用 . 


int tty register driver(struct tty driver *driver); 
int tty unregister driver(struct tty driver *driver); 


函数 ， 从 tty 核心 注册 和 注销 一 个 tty 驱动 . 


void tty register device(struct tty driver *driver, unsigned minor, struct 
device *device); 
void tty unregister device(struct tty driver *driver, unsigned minor); 


对 tty 核心 注册 和 注销 一 个 单个 tty 设备 的 函数 . 
void tty insert flip char(struct tty struct *tty, unsigned char ch, char flag); 
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插入 字符 到 tty 设备 的 要 被 用 户 读 的 flip 缓冲 的 函数 . 








TTY NORMAL 
TTY BREAK 
TTY FRAME 
TTY PARITY 
TTY OVERRUN 


flag 参数 的 不 同 值 ， 用 在 tty insert flip char K% 
int tty get baud rate(struct tty struct *tty); 

函数 ， 获 取 当 前 为 特定 tty 设备 设置 的 波 特 率 . 
void tty flip buffer push(struct tty struct *tty); 

函数 ， 将 当前 flip 缓冲 中 的 数据 推 给 用 户 . 


tty std termios 





变量 ， 使 用 一 套 通 用 的 缺 省 线路 设置 来 初始 化 一 个 termios 结构 . 
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